江苏DG视讯官方网站机械有限公司
您当前的位置 : DG视讯官方网站 > 设备操作技巧 >


以现实说线和DeepSeek数学能力简测

2025-04-05 07:20

  1月15日,科大讯飞发布了当前全国产算力平台上独一的深度推理模子——讯飞星火X1。3月3日,星火X1送来升级,数学能力全面临标DeepSeek R1和OpenAI o1,显著提拔竞赛级难题应对能力及中小学数学功课批改、等使命表示。同时,首发星火医疗大模子X1,并推出包罗星火一体机正在内的系列新品。科大讯飞正在官宣中暗示,升级后的星火X1之所以会正在数学能力上有冲破性进展,次要是该版本采用了两大立异手艺。一是通过高效的范畴数据从动化挖掘和多类型数据合成算法,建立了海量的数学范畴预锻炼数据,从而显著提拔了基座模子的数学专业能力;二是基于考语模子取强化进修算法,实现了大模子长思维链的激发,同时考语模子还促使大模子正在推理过程中进行反思验证,那么,这款升级后的星火X1能否实如科大讯飞所说,正在数学能力方面可全面临标正在业内以推理著称的DeepSeek R1?下面我们就来做一个简单评测。测试题为《2024年济南市中考数学试卷》中的解答题,8个小题,共72分。为确保输入准确,每题均先截图,然后由两大模子识别图片中的字符并解答。这一方式,除了能查验两大模子的解题能力外,还能验证其OCR识别能力。终究对于数学、物理、化学等学科来说,图形、公式、符号是常态,用键盘输入的体例很难完成。若是OCR识别能力差,无法准确识别文字、字符、公式、图片,不只会极大影响大模子的解题准确率,同时也会令其合用场景变窄,如无法赋能字纸功课和试卷等。该题分值为6分,准确谜底是4,星火X1回覆准确得6分,DeepSeek完满答错,答错缘由,该当是DeepSeek正在识别图片中的字符时,误将“-Sin30°”当成π/2次方数的一部门了。该题DeepSeek R1犯了取第一题雷同的弊端,字符识别不准确,误把3x+1①识别成了3X+10,最初导致谜底错误。该题满分6分,星火X1回覆准确,得6分。星火X1完全答对,得10分;DeepSeek R1根基答对,只是正在解答最初一个问题时,忽略了F点有可能正在点C的上方这一现实,只考虑到了当G点正在点F左方这一种环境,因而少给了一个坐标。按本大题满分10分,前两小题比力简单,各占三分,最初一小题占4分来打分,DeepSeek R1本题得分8分。星火X1三个小题均给出了准确谜底,只是解题过程过于笼统,扣1分,得11分。DeepSeek R1解题过程相对细致、了然,但最初一小题答错了,扣4分,得8分。两大模子回覆根基准确,只是正在解答2小题上,都忽略了其实还有一种环境,那就是AC=AD,当AC=AD时,点D还该当存正在一个坐标,即(1,√6);本题满分12分,以每小题4分计,各扣2分,最终两大模子得分均为10分。从两大模子本次测验的最终得分来看,星火X1的数学能力不单能全面临标DeepSeek R1,并且实现了超越。DeepSeek R1最失分的处所是正在试题一和试题二,因为图片文字识别错致谜底错误,这也充实申明,正在OCR识别方面,DeepSeek R1和星火X1比拟还有必然距离,后期需要改良。其它方面,两款大模子不同不大,解题前,城市给出逻辑严密的思虑过程,让用户不单晓得该当怎样做,还晓得为什么要这么做,当前碰到此类问题时该当如何思虑,这一点很是主要,由于它正在“喂”的同时,也起到了教书育人的感化,是学生、家长24小时可随时就教的良师益友。“人工智能的存正在不是为锦上添花,而是要处理社会刚需。”此前谈到人工智能,科大讯飞董事长峰曾暗示。本着这一,科大讯飞自推出星火大模子后,就将其普遍落地于旗下各营业,好比教育、医疗、聪慧汽车、聪慧办公、聪慧城市等,并针对C端用户,推出AI进修机、翻译机、录音笔,智能等产物。




建湖DG视讯官方网站科技有限公司

2025-04-05 07:20


标签

本文网址:

近期浏览:本新闻您曾浏览过!

相关产品

相关新闻



0515-68783888

免费服务热线


扫码进入手机站


网站地图 |  | XML |       © 2022 Copyright 江苏DG视讯官方网站机械有限公司 All rights reserved.  d25f324a-5149-4fe5-b916-0dbe332c8bd0.png

  • 网站首页
  • 咨询电话
  • 返回顶部