您的当前位置:首页 > 热点 > 内地首个AI高考评测 数学全不及格 正文
时间:2024-06-29 20:37:19 来源:网络整理 编辑:热点
广州新茶联系方式-广州品茶微信-广州品茶WX
图:AI得分情况。内
【大公报讯】据第一财经报道:高考这一高难度综合性测试,地首目前普遍被研究者用于考察大模型的个AI高格智能水平。在前不久高考结束后,考评上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试,测数并于19日发布了首个大模型高考全卷评测结果。学全
语数外三科加起来的不及满分为420分,此次高考测试结果显示,内阿里通义千问2-72B得303分排名第一,地首OpenAI的个AI高格GPT-4o得296分排名第二,上海人工智能实验室的考评书生.浦语2.0排名第三,三个大模型的测数得分率均超过70%,但大模型的学全数学都不及格,最高分也只有75分。不及在数学试卷上,内阅卷老师们发现,大模型的主观题回答相对凌乱,且过程具有迷惑性,甚至出现过程错误但得到正确答案的情况。大模型的公式记忆能力较强,但是无法在解题过程中灵活引用。可以看出,在数学方面大模型还有很大的提升空间。
数学关乎复杂推理相关能力,这是大模型普遍面临的难题,也是大模型在金融、工业等要求可靠的场景落地需要的关键能力。上海人工智能实验室领军科学家林达华表示,“现在很多大模型的应用场景是客服、聊天等,在聊天场景一本正经胡说八道影响不太大,但它很难在非常严肃的商业场合去落地。”
邀请更多丹麦企业来投资 太仓代表团参加中丹企业圆桌会议2024-06-29 20:26
法国工商界:将继续投资中国2024-06-29 19:53
“三书同达”助企高质量发展2024-06-29 19:50
湾区动力/穗支付新措 便利广交会外商采购2024-06-29 19:21
可怕!西交大教授炮轰中国电车,支持丰田章男的说法!居心何在?2024-06-29 19:05
台各界热议两岸交流2024-06-29 18:31
中国高水平开放 提升支付便利性2024-06-29 18:28
俄罗斯拒绝参加瑞士世界峰会,因为他们根本没有被邀请2024-06-29 18:20
网友吐槽SU7真皮座椅包浆,坚持认为其就是质量差2024-06-29 18:14
台各界热议两岸交流2024-06-29 17:51
史泰龙被执行死刑,恶魔终于被判了,以告英雄在天之灵2024-06-29 20:30
俄罗斯拒绝参加瑞士世界峰会,因为他们根本没有被邀请2024-06-29 20:12
从我做起/零废弃家庭示范:原来我也做得到2024-06-29 20:03
美国3月CPI重新提速 美元大涨美股集体收跌2024-06-29 20:03
苏城各大墓园迎来祭扫高峰2024-06-29 19:43
上海16区GDP最新公布:闵行区突破3000亿,杨浦区第8,金山区第152024-06-29 19:36
海南岛西南海域商渔船碰撞事故:8名失联人员均确认遇难2024-06-29 19:05
潜力无限/2024全球独角兽榜 湾区70家入选2024-06-29 18:52
旅游趋势/逛茶园:“新中式文旅”黑马2024-06-29 18:29
韦世豪300万超跑曝光,还是广州牌照!娶白富美开豪车,太惬意2024-06-29 18:06