4A广告网 - 广告营销行业影响力媒体_广告创意_营销策划_公关传播

清华新传团队联合发布《大语言模型综合性能评估报告》:文心一言评分领先

张小虎
2023-08-10 14:00
48708

据人民政协网消息,清华大学新闻与传播学院教授、博士生导师沈阳所在团队发布了《大语言模型综合性能评估报告》(下文简称“报告”),报告显示百度文心一言在三大维度20项指标中综合评分国内领先,较优于ChatGPT,其中中文语义理解排名靠前,部分中文能力较优于GPT-4。

 

沈阳表示,今年3月,百度在全球大型科技公司中率先发布了大语言模型文心一言,让中国第一时间参与到世界前沿科技竞争中。本次评测中文心一言各方面能力均有进步,特别是在中文语义理解方面“表现惊艳”。

 

据了解,报告本次评估选取了GPT-4、ChatGPT 3.5、文心一言、通义千问、讯飞星火、Claude、天工7个大语言模型,围绕生成质量、使用与性能、安全与合规三大维度,全面考察大语言模型上下文理解、中文语义理解、误导信息识别、逻辑推理、内容安全性、隐私保护等20项指标。综合来看,文心一言语义理解能力突出,特别是具备更好的中文理解能力,更懂中国文化,同时时效性强、内容安全把握细微,这源于其知识增强、检索增强和对话增强的技术创新。


2a66235f-709f-4fd6-a518-9554737683bd.webp

 

生成质量方面,基于对语义理解、输出表达、适应泛化的综合评测,文心一言得分率76.98%,领先于包括ChatGPT在内的其他大语言模型。

 

其中,在部分中文语义理解方面,文心一言以92%的得分率排名榜首,超越讯飞星火、GPT-4。凭借知识增强的核心特色,文心一言对本土语言特性把握更精准,同时由于训练语料中包含大量本土文本,对本土文化理解也更深刻,能够更好处理与本土文化相关的主题和背景,如诗歌、方言等,具备更强的国内落地空间。


d0cb34e6-d88e-4041-a850-bd0967a11207.webp

 

安全合规方面,基于对内容安全性、偏见和公平性、隐私保护等综合评测,文心一言得分率78.18%,与GPT-4并列排名领先,远超其他大语言模型。报告显示,文心一言内容安全性好,注重用户隐私保护和版权保护。

百度文心一言《大语言模型综合性能评估报告》文心一言评分大语言模型测评
1、该内容为作者独立观点,不代表4A广告网观点或立场,文章为作者本人上传,版权归原作者所有,未经允许不得转载。
2、如对本稿件有异议或投诉,请联系:info@4Anet.com
近日,青岛市广播电视台与百度智能云联合打造的“青岛广电智慧云平台”正式上线,将打造更为智能的用户互动体验,提升青岛广电的内容、品牌和技术实力。
近日,有微博博主发文称质疑文心文生图功能抄袭“StableDiffusion”,同时在中文语义理解方面存在局限。不仅如此,近段时间的文心的AI 绘画功能备受质疑,相关的文生图作品也被网友当成笑料,广泛流传。百度官博发文回应。
百度正式推出“文心千帆”模型平台,这是百度面向客户提供企业级语言模型服务的平台。据现场实时演示,文心千帆可实现三分钟做PPT、数字人直播带货、订机票和酒店等操作。在收费模式上,文心千帆的推理服务调用以0.012元/1000tokens收费,按调用输入输出总字数付费。
绘画能力可以,理解力不行。
端午节前,不少百度的合作伙伴都收到一封来自百度职业道德建设部题为《百度公司端午节日祝福&廉洁提示》的端午祝福邮件。有收件人吐槽,这封不到300字的端午祝福邮件却存在诸多错误。
今日,百度在北京地铁1号线投放的真人版移动广告引发网友热议,不少网友认为这次百度文心广告“打得太好了”。
为难AI哪家强,本届网友齐称王。遇到难题怎么办,丢给文心;遇到怪题怎么办,丢给文心
土味营销风云再起。
据最新消息,字节跳动正在内部测试一款AI对话类产品,目前暂时称作“Grace”,该产品处于测试完善的阶段。在AI风口的当下,各路家家纷纷布局。大厂方面,如百度推出的文心、阿里的通义千问、科大讯飞的星火认知AI模型等,都已对外开展测试,甚至在一些领域实现了落地应用。