专注于分享
分享好资源

新华社研究院最新大模型体验报告出炉 好用才是硬道理

科技日报记者 都芃

如果说有一个话题能从今年年初火到年尾,那非“大模型”莫属。自去年ChatGPT面世以来,大模型技术备受全社会关注,从“惊艳”到“习以为常”,“百模大战”竞逐之下,哪家大模型最好用?

近日,新华社研究院中国企业发展研究中心发布了年度第三份大模型评测报告——人工智能大模型体验报告3.0(下文简称《报告》)。评测结果显示,由科大讯飞研发的讯飞星火认知大模型获得1775最高分蝉联冠军,并获得基础能力指数、智商指数、工具提效指数三项评测指标第一。紧随其后的是商汤的商量大模型和智谱AI的AI-ChatGLM大模型。

新华社研究院最新大模型体验报告出炉 好用才是硬道理

新华社研究院供图

《报告》测评选取了讯飞星火、商汤商量、智谱AI-ChatGLM、澜舟科技孟子、360智脑、字节跳动豆包、阿里通义千问、腾讯混元、昆仑万维天工和中科闻歌雅意等10家最新版本国产主流大模型产品。

本次报告与之前的评测体系相比,在评估维度、主客观融合、指标与市场异动匹配等方面都进行了升级。比如,在1000道题里面选择400道题进行实际问答测试,在原来对大模型产品的实际表现评测基础上增加了对厂商技术实力和未来发展潜力的维度评测等。

《报告》以“技术实力”和“发展潜力”为坐标系,其中,“技术实力”包括平台性能、安全性能、模型可解释性、实时性能四大二级指标和易用性等七大三级指标,“发展潜力”包括社会认可度、创新能力、市场前景三大二级指标和用户接受度等五大三级指标,由此得出主流大模型综合指数3.0。结果显示,讯飞星火等3家大模型在“技术实力”和“发展潜力”上处于第一象限,属于大模型领域的“未来领袖”。

今年下半年以来,“百模大战”已从“拼技术”转向“拼应用”的转折点,“应用为王”成为行业共识。

《报告》对主流大模型的产品,从基础能力、智商、情商和工具提效四大维度进行测试。结果显示,科大讯飞获得1775分,总分第一且基础能力、智商、工具提效三项指数均获第一。

在《报告》的四大评测维度中,“工具提效指数”直指落地应用,通过“在不同专业技能场景下评测模型均能一定程度上提升问题分析和解决水平,以及大纲罗列的速度”,来检验大模型是否真正“好用”。

在实践成效方面,《报告》认为,在讯飞保障内容,华为保障算力的前提下,讯飞联合华为推出的国产软硬件一体化的私有专属大模型解决方案“星火一体机”,打造出了面向超大规模大模型的训练国产算力集群,保证了人工智能大模型的算力安全和自主发展。

知名信息技术研究与分析公司Gartner发布的2024年十大战略技术趋势显示,生成式AI的全民化有可能实现各种任务的自动化,从而提高生产力,降低成本并提供新的增长机会。随着生成式AI平台在全球范围内不断普及,全球组织和员工将迎来生产力跃迁。Gartner预测,到2026年,80%以上的企业将接入生成式AI或大模型。

人工智能大模型的发展任重道远,《报告》期待,未来人工智能大模型能够推动数字经济和产业经济深度融合,牵引新一轮技术革命,为社会经济发展提供源源不断的科技动力。