文爱社区 “不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

发布日期：2024-10-11 01:20 点击次数：98

就在刚刚文爱社区，文心大模子 4.0 版块庄重发布！

北京首钢园现场，李彦宏径直放话：

文心大模子 4.0 空洞水平与 GPT-4 比较照旧绝不逊色。

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

话未几说，通盘来看现场演示效力。

先来段倒装 prompt：

橾p在线

我想回承德买房，能用公积金贷款吗？手续奈何办？我在北京使命。

不仅关节信息“北京使命”放在了临了，公积金具体是在那儿交的也莫得昭示。

但新版文心一言整个莫得被这些小罗网坑到，顺利给出了正确谜底。

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

生成方面，马上剪出一整段数字东说念主口播视频，绝不良友：

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

解起数学题来也驾轻就熟，可以说是家长指示功课神器了（doge）。

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

新版文心一言还现场写起了武侠演义，即使抓续添加东说念主物变装、加多戏剧艰涩，也不会出现操心零散、驴唇不对马嘴的情况：

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

如斯发达，委果是让现场不雅众 high 了一把。

文心大模子 4.0 关系话题，也坐窝被国表里网友们热议起来。

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

据现场先容，比较线上 3.5 版块的文心一言，文心大模子 4.0 高出显露：仅 9 月启动小流量测试这以前的一个月，就又升迁了 30%。

那么，问题来了：文心大模子 4.0 真有这样好？具体与 GPT-4 出入几何？

咫尺，文心大模子 4.0 照旧开启邀测，量子位也在第一时刻拿到了测试履历。

我们径直实测走起。

比较 GPT-4 实测效力若何？

取得测试履历后，切换到文心大模子 4.0，就可以启动玩耍了。

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

比较文心大模子 3.5 刚出来的时候，文心大模子 4.0 咫尺照旧进化出了更多功能，光是插件就有 8 个，包括一镜流影（笔墨转视频）、说图解画（看图话语）、E 言易图（可视化数据分析）等。

这些插件还可以解放组合，来完成更复杂的任务。

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

百度辞宇宙大会现场，重心演示的如故文心大模子 4.0 的图文创作、数理逻辑推理等实勤奋能。那我们如故老神色，从更基础的角度动身，测测它的四大“基本功”——

长入、生成、逻辑和操心能力。

长入能力，尤其是华文长入能力

第一波，先来望望文心大模子 4.0 的长入能力。

这里我们主要考考它打发“语言罗网”的能力，以及相聚段子的“识别力”。

先来个华文十级能力测试题，考考大模子究竟懂不懂“确凿假的”是什么兴致。

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

文心大模子 4.0 的讲述很精真金不怕火，径直给出谜底。

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

GPT-4 则要每一句话都仔细分析句意，临了再给出讲述：

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

固然更仔细，但总嗅觉有点像是在庄重作念华文测试的歪果仁（doge）。

再来上点难度，“小悄悄悄悄东西”。

文心大模子 4.0 很快拆解出了“小偷”、“悄悄”和“偷东西”三个词，get 到了这句话的兴致：

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

不外，GPT-4 反而一头“栽”进了这个罗网中，以为中间的两个“偷”亦然动词，临了还漏了一个偷……

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

检修完语言罗网后，再来望望两边对相聚段子的长入。

针对“哪李贵了”这个原土梗，文心大模子 4.0 很快给出了谜底，东说念主物事件都直不雅：

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

GPT-4 要是莫得开搜索，会 get 不到 2022 年 1 月之后的梗：

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

但要是掀开搜索，很快也能“与时俱进”，给出这个问题的谜底：

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

同理，我们也试了试从外洋传入国内的梗。

文心大模子 4.0 和 GPT-4 都能讲述出来，文心大模子 4.0 更摘抄一些，GPT-4 则是径直搬运了一套百科（更详备，但 tokens 也更贵💰……）：

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

相聚段子测评看下来，文心大模子 4.0 和加了搜索的 GPT-4 可以说是各有千秋。

多模态生成能力

那么接下来这波，就要进修当下最受热心的大模子多模态生成能力了。

先来试试图像生成能力，趁机检修一下对古诗“孤舟蓑笠翁，独钓寒江雪”的长入。

文心大模子 4.0 很快给出了 4 张图像，立场和基本境界都比较得当：

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

GPT-4 也哄骗 DALL・E 3 画出了 4 幅画文爱社区，相通画风区分：

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

这一次两边打了个平手。

那么视频生成呢？这里我们调用一下文心大模子 4.0 的自带插件，本想着仅仅生成一段落叶裁剪，没猜度连案牍和字幕语音都配好了，完成度很高那种：

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

GPT-4 践诺咫尺还不撑抓生成视频，需要借助外部插件（如 Capcut）终了这一功能。

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

逻辑能力

然后，就到了我们脍炙人丁的数学计较 + 逻辑推理能力测试了。

文心大模子 4.0 说是重心升级了数学计较能力，我们也不客气，径直上难倒一派大模子的 Old McDonald 问题：

在 Old McDonald 的农场里养着一匹马、两端牛和三只羊。求教农场还需要再养些许头牛，才能使得通盘动物的总额量适值是牛的总额量的两倍？

文心大模子 4.0 接续列出了 4 个未知数（doge），但解题流程如故比较严谨的，最终谜底也莫得问题。

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

此前，我们曾将这个问题喂给 Claude、ChatGPT 等一众大模子，“横向评测”过一波它们的数学能力，其时惟有 GPT-4 能作念出来。

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

接下来，径直上弱智 benchmark，考考逻辑推理能力。

第一个问题，文心大模子 4.0 和 GPT-4 都很快给出了正确谜底：

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

第二个问题，两边的讲述也很快，文心大模子 4.0 还顺溜给出了“七分海洋三分陆地”的地舆题背诵口诀：

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

看起来两边的数学、逻辑都可以，点个赞。

操心能力

大语言模子公认的评判尺度之一，是多轮对话能力。GPT-4 的多轮对话照旧有不少测试了，我们再来简单望望文心大模子 4.0 的效力。

先来解读一下长论文，没什么问题：

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

以这个为主题写一首诗歌，趁机让它改成英文，也能 hold 住：

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

试试让它改得押韵少量，no problem：

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

临了再来发问一下诗歌顶用到的 Transformer 学问点，并挑出其中的某个学问点条款讲解旨趣，也信手拈来：

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

另外，试着将上文中的学问点用“它”代替，文心大模子 4.0 相通能接续上文的对话，并给出关系学问讲述。

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

看来无论是长文本解读、如故多轮对话，可以说都是难不倒文心大模子 4.0 了。

附加题

正经测试完毕，我们临了整点乐子（doge）。

这段时刻，一说念神奇的考题又被拎出来，在小红书等酬酢媒体上“难倒世东说念主”，题面是这样的：

凭据中华东说念主民共和国婚配法，以下谁能成婚？

A、林黛玉和贾宝玉

B、贾琏和尤二姐

C、杨过和小龙女

D、张起灵和吴邪

乍一眼还真看不出谜底，不如交给文心大模子 4.0 和 GPT-4 讲述试试。

文心大模子 4.0 给出的讲述算是有理有据，固然细看仍有少量 bug，但举座问题不大。

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

可是当我们将这个问题抛给 GPT-4 的时候，它先是停顿了好一会，然后径直被“急出母语”（doge）

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

翻译一下或者即是，GPT-4 以为 D 选项是正确的……

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

我们再尝试一遍。此次 GPT-4 倒是用华文讲述了，只不外好像启动打起了太极，关于每一个选项，它的讲述都是：

在现实中，他们的成婚履历取决于他们是否得当中国的婚配法律步伐。

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

测到这里，不妨作念个小小的转头：

举座来看，与 GPT-4 比较，文心大模子 4.0 在空洞能力上如实不落下风，尤其是在华文长入能力和通用学问能力上以致更好。

那么，这样的大模子究竟是奈何真金不怕火成的呢？

文心大模子 4.0 是若何真金不怕火成的？

先来望望文心大模子 4.0 的“自进化”进度。

据百度 CTO 王海峰先容，大模子发达出的创作、编程、解题、磋磨等能力，践诺上都依赖于背后的 4 大中枢基础能力 ——

长入、生成、逻辑和操心能力。

比较 3.5 版块，文心大模子 4.0 的 4 大基础能力均有了不少升迁，而升迁最大的，又要属逻辑和操心能力。

其中，逻辑的升迁幅度达到了长入的近 3 倍，而操心的升迁幅度则达到了长入的 2 倍多：

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

以大模子写代码为例。

咫尺，百度的不少职工照旧用上了大模子写代码应用 Comate，平均代码接受率达到 40%，高频用户达到 60%。

以致咫尺百度每天新增的代码中，20% 都是靠 Comate 生成的，比例还在贬抑加多。

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

是以，文心一言背后的文心大模子 4.0，究竟是奈何真金不怕火成的？

据王海峰暗意，中枢架构固然如故从文心大模子 3.0 和 3.5 一脉相传，包括领先 3.0 的有监督精调、基于东说念主类反馈的强化学习，以及 3.5 的学问点增强、逻辑推理增强、插件机制等。

但文心大模子 4.0 的技巧校阅，可以径直用三个“更”来转头：

更大的算力、更多的数据、更强的算法。

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

教练上，咫尺飞桨平台照旧能在万卡算力上运行，基于集群基础表率、休养系统、软硬件协同优化，撑抓大范围踏实高效教练；同期，基于可再生教练技巧中的增量式参数调优，来省俭教练资源和时刻。

基于这套技巧，自 3 月份以来，文心大模子系列教练算法照旧累计提效 3.6 倍，周均教练踏实灵验率特出 98%：

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

数据上，团队辅助了一套多维数据体系，从数据挖掘、分析、合成标注和到评估，变成了一整套“活水线”，来进一步升迁模子教练效力。

算法上，则基于有监督、精调、偏勤学习和强化学习等技巧，进行了多阶段的对都，确保大模子能更好地与东说念主类判断和聘请进行对都。

在这其中，有两方面很关节的技巧细节。

一方面是学问点增强的能力。

以前大模子可能只在一个阶段作念学问点增强，但咫尺百度在输入和输出两方面同期进行了学问点增强。

输入先用学问点增强，对用户输入的问题进行长入，拆解出讲述问题所需学问点，基于搜索引擎、学问图谱、数据库查找学问，生成第一遍收场；

输出再用学问点增强，对第一遍生成的收场进行分析，并用搜索引擎、学问图谱、数据库进行“double check”，对其中有裂缝的地方进行修正。

另一方面是智能体机制。

《念念考，快与慢》这本书中，将贯通系统分红系统 1（反馈快但易出错）、系统 2（反馈慢但更感性准确）。

凭据这个旨趣，百度在大模子基础上，进一步研制了系统 2。

也即是说，比较大模子径直给出谜底，咫尺进一步让它学会长入、磋磨、反念念和进化，这样大模子扩充就能更可靠、以致完成自我进化，念念考流程“白盒化”。

这两大技巧细节，也栽植了文心大模子 4.0 水平的飞速升迁，以致光是以前一个月的时刻里，就升迁了 30%。

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

这样的技巧，也让文心大模子 4.0 的用户和招引者东说念主数增长得迅速。

死亡咫尺，文心一言用户范围照旧达到 4500 万东说念主，招引者达到 5.4 万东说念主，遍布 4300 多个使用场景，应用数目达到 825 个，并接入了特出 500 个插件。

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

而在技巧以外，更值得热心的是，百度宇宙大会上清醒出的信息骄气，文心大模子 4.0 照旧全面重构了百度的搜索、GBI、文库、网盘、舆图等数十款应用。

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

AI 原生时期大幕开启

为什么这样说？李彦宏在百度宇宙大会现场共享时强调：

大模子带来的智能涌现，是招引 AI 原生应用的基础。相通，莫得构建于基础模子之上的丰富的 AI 原生应用，基础模子就莫得任何价值。

无特殊偶，红杉老本在《生成式 AI 插足第二阶段》中相通以为，生成式 AI 商场正在插足“第二幕”：

炒作和快速展示正在为真实的价值和齐备的居品体验所取代。

底层的逻辑其实很简单：底层技巧的紧要性无须置疑，但前沿技巧想要真实在东说念主们的糊口中创造价值，如故需要通过应用的容貌。

要是说，大模子掀翻的是东说念主机交互花式变革的风暴，那么 AI 原生应用，恰是纯当然语言交互的具体体现容貌。

正如百度现时势演示的，数据分析咫尺可以是酱婶的 ——

径直对大肆数据发问，AI 分分钟就能张开具体分析，不再需要东说念主工跨数据库、跨表格分析。

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

在办公软件如流里，顶住出行观念，AI 超等助手立马就能把差旅机酒安排妥当。

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

凭据文档生成 PPT，也即是一句话的事，像百度文库这样的居品，径直化身“分娩内容最佳的起先”。

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

我们平方熟识的网盘、舆图等 App，基于大模子能力，也涌现出了全新的体验。

比如从网盘视频里径直索要重心内容。

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

比如在舆图衔接 AI 订餐厅。

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

百度此番出手，可以说是径直展示了一把大模子全场合的应用渗入，揭开了 AI 原生时期大幕的一角。

而百度“第一个把全部居品用大模子重作念一遍”的先手上风，也照旧在更大范围内启动显现。

李彦宏清醒，百度的大模子技巧照旧应用在制造、能源、电力、化工、交通等实体产业中，17000 家企业已参与其中，大模子正在成为新式工业化的紧要推能源。

“不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

从 3 月份文心一言发布，到年华文心大模子 3.5 版块更新，再到咫尺 4.0 惊艳亮相，百度文心大模子的迭代速率不行谓不迅速。

这背后既是国产大模子从技巧 demo 到落地应用的强烈竞争，也再一次体现了百度在大模子边界深厚的技巧累积。

况兼跟着文心大模子 4.0 和百度一众 AI 原生应用的亮相，大模子赛场上新一阶段的竞争场合愈发显露。

正如李彦宏所说：

我们行将插足一个 AI 原生的时期。一个东说念主机通过 prompt 交互的时期。

在此流程之中，无论是国产大模子基础能力的快速追逐，如故 AI 原生应用招引的主动挫折，都令东说念主心潮澎湃。

AI 原生时期，在各式层面上，都越来越值得期待了。

告白声明：文内含有的对外跳转贯串（包括不限于超贯串、二维码、口令等容貌），用于传递更多信息文爱社区，省俭甄选时刻，收场仅供参考，IT之家通盘著作均包含本声明。

文爱 社区 “不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波

文爱社区 “不逊色 GPT-4”！百度最普遍模子发布，我们第一时刻实测了一波