您现在的位置: 首页 > 微信文章 > > 前有IDC,后有SuperClue,文心3.5再次斩获国内大模型总分第一!

前有IDC,后有SuperClue,文心3.5再次斩获国内大模型总分第一!

发布人:admin  /  发布时间2023-07-31 14:06:38   热度:
7月25日消息,中文通用大模型综合性基准SuperClue发布了最新中文大语言模型排行榜。榜单结果显示,百度文心一言总分超GPT-3.5-Turbo,

7月25日消息,中文通用大模型综合性基准SuperClue发布了最新中文大语言模型排行榜。榜单结果显示,百度文心一言总分超GPT-3.5-Turbo,领跑国内大模型。

文心一言

SuperCLUE-Opt评测基准是SuperCLUE综合性三大基准之一,每期有3700+道客观题(选择题),由基础能力(10个子任务)、中文特性能力(10个子任务)、学术专业能力(50+子任务)组成,用于考察大模型在70余个任务上的综合表现。

此次SuperCLUE从基础能力、专业能力、中文特性能力三个维度70余项子能力,选取国内外20个有代表性的可用大模型进行测评,兼具综合能力考量与中文特定任务理解积累的考察,并通过自动化测评以相对客观形式进行效果测评。在总分榜中,文心一言紧随GPT-4,总分超GPT-3.5及国内其他大模型,模型效果最佳。

文心一言

从榜单结果可以看出,虽然国外GPT-4效果较领先,但国内GPT模型也有不俗表现。在中文领域,国内研发的大模型在部分维度表现突出,整体在逐步缩小与国际先进模型的差距。整体来看,国内大模型中百度文心一言表现最优。文心一言v2.2.0版背后搭载的是文心大模型3.5,文心大模型自2019年3月发布1.0版后,现已升级到3.5版。新版本模型效果提升50%,训练速度提升2倍,推理速度提升30倍。

据了解,这次评榜的SuperClue是一个由国内发起的大模型榜单,是中文领域权威测评社区。相较于国外的UC伯克利LLM排行榜和斯坦福排行榜AlpacaEval两个流行榜单,多了一些国内大模型,更加适合国内用户来横向比较。作为针对中文可用的通用大模型测评标准,SuperCLUE使用多个维度能力对一系列国内外代表性模型进行测试,因其为封闭式问题,对大模型来说是“闭卷考试”,测评更难。

文心一言

评测基准中,基础能力包括了常见的有代表性的模型能力,如语义理解、对话、逻辑推理、角色扮演、代码、生成与创作等10项能力;专业能力包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等50多项能力;中文特性能力包括了中文成语、诗歌、文学、字形等10项多种能力。
值得一提的是,全球领先的IT市场研究和咨询公司IDC最新发布《AI大模型技术能力评估报告,2023》显示,百度文心大模型3.5拿下12项指标的7个满分,综合评分第一,算法模型第一,行业覆盖第一,其中也是算法模型维度的唯一一个满分

文心一言

另据近期多个公开测评显示,文心大模型3.5版支持下的文心一言中文能力突出,甚至有超出GPT-4的表现;综合能力在评测中超过ChatGPT,遥遥领先于其他大模型,稳居国内第一。

 

电科技(www.diankeji.com)是一家专注于全球TMT行业的领先资讯媒体。

作为今日头条青云计划、百家号百+计划获得者,2019百度数码年度作者、百家号科技领域最具人气作者、2019搜狗科技文化作者、2021百家号季度影响力创作者,曾荣获2013搜狐最佳行业媒体人、2015中国新媒体创业大赛北京赛季军、 2015年度光芒体验大奖、2015中国新媒体创业大赛总决赛季军、2018百度动态年度实力红人等诸多大奖。

投稿、商务合作请联络微信公众号

声明:本站原创文章文字版权归电科技所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表电科技立场,图文版权归原作者所有。如有侵权,请联系我们删除。

分享家规则

1、第一分享家好处是什么?

1)文章会挂上你的二维码提高爆光率

2)分享出去的文章你就是作者

3)将会获得网站金币

4)首页推荐快速加粉丝

5)像公众号一样传播你的文章

2、如何成功激活分享家?
任何微信搜索用户都可以成为分享家,您只要把任何一篇文章成功分享到微信朋友圈(必须是微信朋友圈,分享到其他平台是激活不了的哦),系统就会立即自动激活您成为分享家。
3、如何成为第一分享家?
第一分享家是分享家族中最高荣誉,在分享家族中分享同一篇文章贡献值最高的用户就是该文章的第一分享家。
4、怎样统计我的贡献值?
贡献值是来自您分享文章到微信朋友圈好友的访问量,访问IP次数越多,贡献值就越高。同样您朋友在微信朋友圈转发您分享的文章,其贡献值也是属于您的。朋友帮您转发的越多,您的贡献值就会更高。