网站地图
关于星空(中国)官方网站
企业简介
文化与价值观
人才招聘
联系我们
科技创新
教育科技
投资者关系
公司治理
新闻及活动
股票信息
财务信息
战略投资
投资策略
投资方向
投资优势
投资品牌
ESG
ESG战略
ESG管理
定期报告
诚聘英才
社会招聘
校园招聘
GlobalTalent
法律声明
职业准则
廉政合规

新闻中心

News center

测评榜单MathEval发布,大模型数学能力有了“风向标”

2024-03-05

近日,大模型数学能力测评基准MathEval上线(官网:https://matheval.ai),并已在官网发布最新测评榜单,学而思旗下九章大模型夺得冠军。

ad7f83df1f8261ad047fd560e7e4472b_html_66b721575c260f72.png

图:MathEval官网测评榜单

根据官网信息,MathEval由智慧教育国家新一代人工智能开放创新平台联合暨南大学、北京师范大学、华东师范大学、西安交通大学、香港城市大学共同发起,是一个专注于全面评估大模型数学能力的测评基准,共包含19个数学领域测评集、近30K道数学题目,旨在全面评估大模型在包含算术,小初高竞赛和部分高等数学分支在内的各阶段、难度和数学子领域的解题能力表现。

目前,涉及数学的应用领域正在越来越多地使用大模型,包括直接用大模型解决数学问题、使用大模型进行数据分析和学术研究、帮助学习辅导等。但行业内此前还没有较为全面、能覆盖各国主流通用大模型和垂类模型的数学能力测评榜单。数学能力评测通常被包含在通用榜单或推理能力、自然科学能力的排行之中,缺乏一致的标准。因此,MathEval作为专注于大模型数学能力的测评基准能够及时上线,弥补了行业空白,对大模型领域在数学能力上的进一步探索提升,可以提供非常有价值的参考。

对大模型进行数学能力测评有一些公认的难点:首先,各数据集的字段需要进行统一,每个大模型也都有自己的一套Prompt模板和答案形式,要想给“思维方式”不同的大模型进行统一的测试和比较,需要测评基准根据具体情况,设计符合需求的抽取打分规则,才能从模型输出的内容中批量抽取出可以进一步对比的答案。这对专业能力的要求很高,因为抽取规则的一点点改动,都会影响到最终的测评结果。

其次,要让测评榜单的结果具备足够的可参考性,就要使用足够丰富全面的数据集,并尽量全面的测评市面上的大模型,这对测评方的算力也提出了很高的要求。

据悉,MathEval截至目前已测试了30个大模型(含同一模型的不同版本),且未来会加入新出现的大模型,不定期更新榜单。在评测过程中,MathEval团队使用了GPT4大模型来进行答案抽取和答案的匹配,减少基于规则进行评测所带来的误差,并根据每个模型的Prompt模板进行了适配,以激发每个模型本身能达到的最佳效果。

从MathEval已发布的测评榜单来看,学而思旗下九章大模型在整体表现和中文、英文、各学段子榜单中,都具备领先优势,作为少有的专注于数学解题和讲题能力的大模型,九章大模型的这一表现可以说是并不意外。而作为通用大模型的文心一言4.0、讯飞星火V3.5在测评中的表现也颇为亮眼,占据了第二、三位,均优于GPT-4。可以说,国产大模型在数学方面的能力已经实现了赶超,未来还将如何提升及落地在应用场景,值得期待。

本文转自:中国网 http://szjj.china.com.cn/2024-03/04/content_42712491.html

XML 地图