以现实说线和DeepSeek数学能力简测

2025-04-05 07:20

次

　　1月15日，科大讯飞发布了当前全国产算力平台上独一的深度推理模子——讯飞星火X1。3月3日，星火X1送来升级，数学能力全面临标DeepSeek R1和OpenAI o1，显著提拔竞赛级难题应对能力及中小学数学功课批改、等使命表示。同时，首发星火医疗大模子X1，并推出包罗星火一体机正在内的系列新品。科大讯飞正在官宣中暗示，升级后的星火X1之所以会正在数学能力上有冲破性进展，次要是该版本采用了两大立异手艺。一是通过高效的范畴数据从动化挖掘和多类型数据合成算法，建立了海量的数学范畴预锻炼数据，从而显著提拔了基座模子的数学专业能力；二是基于考语模子取强化进修算法，实现了大模子长思维链的激发，同时考语模子还促使大模子正在推理过程中进行反思验证，那么，这款升级后的星火X1能否实如科大讯飞所说，正在数学能力方面可全面临标正在业内以推理著称的DeepSeek R1？下面我们就来做一个简单评测。测试题为《2024年济南市中考数学试卷》中的解答题，8个小题，共72分。为确保输入准确，每题均先截图，然后由两大模子识别图片中的字符并解答。这一方式，除了能查验两大模子的解题能力外，还能验证其OCR识别能力。终究对于数学、物理、化学等学科来说，图形、公式、符号是常态，用键盘输入的体例很难完成。若是OCR识别能力差，无法准确识别文字、字符、公式、图片，不只会极大影响大模子的解题准确率，同时也会令其合用场景变窄，如无法赋能字纸功课和试卷等。该题分值为6分，准确谜底是4，星火X1回覆准确得6分，DeepSeek完满答错，答错缘由，该当是DeepSeek正在识别图片中的字符时，误将“-Sin30°”当成π/2次方数的一部门了。该题DeepSeek R1犯了取第一题雷同的弊端，字符识别不准确，误把3x+1①识别成了3X+10，最初导致谜底错误。该题满分6分，星火X1回覆准确，得6分。星火X1完全答对，得10分；DeepSeek R1根基答对，只是正在解答最初一个问题时，忽略了F点有可能正在点C的上方这一现实，只考虑到了当G点正在点F左方这一种环境，因而少给了一个坐标。按本大题满分10分，前两小题比力简单，各占三分，最初一小题占4分来打分，DeepSeek R1本题得分8分。星火X1三个小题均给出了准确谜底，只是解题过程过于笼统，扣1分，得11分。DeepSeek R1解题过程相对细致、了然，但最初一小题答错了，扣4分，得8分。两大模子回覆根基准确，只是正在解答2小题上，都忽略了其实还有一种环境，那就是AC=AD，当AC=AD时，点D还该当存正在一个坐标，即（1，√6）；本题满分12分，以每小题4分计，各扣2分，最终两大模子得分均为10分。从两大模子本次测验的最终得分来看，星火X1的数学能力不单能全面临标DeepSeek R1，并且实现了超越。DeepSeek R1最失分的处所是正在试题一和试题二，因为图片文字识别错致谜底错误，这也充实申明，正在OCR识别方面，DeepSeek R1和星火X1比拟还有必然距离，后期需要改良。其它方面，两款大模子不同不大，解题前，城市给出逻辑严密的思虑过程，让用户不单晓得该当怎样做，还晓得为什么要这么做，当前碰到此类问题时该当如何思虑，这一点很是主要，由于它正在“喂”的同时，也起到了教书育人的感化，是学生、家长24小时可随时就教的良师益友。“人工智能的存正在不是为锦上添花，而是要处理社会刚需。”此前谈到人工智能，科大讯飞董事长峰曾暗示。本着这一，科大讯飞自推出星火大模子后，就将其普遍落地于旗下各营业，好比教育、医疗、聪慧汽车、聪慧办公、聪慧城市等，并针对C端用户，推出AI进修机、翻译机、录音笔，智能等产物。

建湖DG视讯官方网站科技有限公司

2025-04-05 07:20

新闻资讯

新闻资讯

联系我们

江苏DG视讯官方网站机械有限公司

以现实说线和DeepSeek数学能力简测

标签

近期浏览：本新闻您曾浏览过！

相关产品

相关新闻