中国青年网2024-10-17 00:23:48发布:一句废话就把OpenAI o1干崩了?大模型的推理能力还真挺脆弱的。

⭐发布日期:2024-10-17 00:23:48 | 来源:中国青年网

⭐作者:关嘉敏 责任编辑:Admin

⭐阅读量:264 评论:7人

【2024年新澳门天天开彩大全}】

【新澳门精准四肖期期中特公开】

【新奥门天天开奖资料大全】 【2024年澳门精准马会】 【新澳天天开奖资料大全最新】 【2024澳门天天开好彩大全53期】 【新澳天天开奖资料大全最新54期】 【2024年澳门特马今晚开码】 【2024年新澳门天天彩开彩结果】 【澳彩一肖一码100%】
【2004新澳门天天开好彩】 【奥门2024正版资料免费看】 【2024天天彩正版资料大全】 【香港今晚六给彩开奖结果七十八】 【澳门六开彩天天开奖结果生肖卡】 【2024澳门天天彩期期精准】 【澳门最精准免费资料大全旅游团】 【澳门资料大全正版资料2024年免费脑筋急转弯】

就在一个月前,OpenAI悄悄发布了o1,o1的推理能力是有目共睹的。

我当时用了几个很难很难的测试样例去试验了一下,很多模型见了都会犯怵,开始胡说八道。

最难的其中一个是姜萍奥赛的那个数学题,几乎暴揍所有大模型的那个题,交给o1,o1竟然完完全全答对了。

如果你还记得,我在那篇文章最后给大家放了OpenAI给出的提示词的最佳写法。

其中第一条就是:

保持提示词简单直接:模型擅长理解和相应简单、清晰的指令,而不需要大量的指导。

当时我对这一条的理解,觉得是为了让o1模型更好的理解我的要求,同时可以加快模型的处理速度,因为模型不需要花费额外的时间去解析复杂的语句。

直到我刷到前两天苹果的放出来的一篇LLM的研究论文,我才意识到,多加一两句无关紧要的和目标无关的话,别说奥赛题了,可能模型连小学数学题都做不对了。真的。

这篇论文就是:

GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models (翻译过来即:理解大语言模型在数学推理的局限性)

看着好像天书,别慌,其实非常简单,我都能看懂,你肯定也行。

这篇论文想研究的一个核心问题是:

这些模型是否真正具备逻辑推理能力?尤其是在数学推理任务中。

这其实也是我一直很想知道的。

对于我们人类来说,我们会根据复杂的环境和已知的一些条件每时每刻做出当下的行动选择,就是因为我们可以通过演绎,归纳,溯因等方式时时刻刻做推理。

比如鲜虾包时不时在我评论区谬赞我的文章-->>推理出他对我的文章是真爱。

对于现在的大语言模型来说,主流的评估方式是通过设计一系列逻辑推理任务,包括但不限于数学问题、逻辑谜题、推理判断等,然后让模型尝试解决这些任务。

其中一个非常重要的数据集是GSM8K,你可以在很多的模型的性能榜单介绍里看到这个数据集,是一个聚焦 小学数学题的一个数据集。

你没看错,就是小学数学。虽小但是博大精深。

这篇论文就围绕这个数据集展开诸多的实验,做了自己的扩展。其中我觉得最有趣的,当属下面这个实验:

就是通过魔改GSM8K,来向小学数学问题添加一些无关紧要的一个信息,来测试模型的推理成功率。

然后就会发现,大模型推理的成功率,直接大幅下降。

比如原本的问题是:

- 鲜虾包去农贸市场买蔬菜,他买了4公斤西红柿和6公斤土豆。西红柿每公斤6元,土豆每公斤3元。请问鲜虾包在西红柿上比土豆多花了多少钱?

很简单,对不对,你交给大语言模型,大语言模型会说:“就这?轻轻松松”,几乎谁都能答的上来。

但是如果你加一句无关的话,变成:

- 鲜虾包去农贸市场买蔬菜,他买了4公斤西红柿和6公斤土豆。西红柿每公斤6元,土豆每公斤3元。 然后他把1公斤西红柿和2公斤土豆送给了卡兹克。请问鲜虾包买西红柿上比土豆多花了多少钱?

我们一眼就可以看出来:送不送卡兹克和鲜虾包花的钱没有任何关系,答案肯定是不变的。

但如果这样的话,AI就懵逼了。就可能会给你开始算错了,算对的成功率就会开始给你降低了。

这个结论非常有意思,但是论文归论文,我们肯定还是要自己测试一下的。

所以第一时间,我打开各大平台开始着手测试。当然为了让他更像小学题,我们的主角换成了小明,相信大家童年的数学都离不开小明。

题目设定为:

- 小明想购买一些学习用品。他购买了24个现在每个卖6元的橡皮擦,10本现在每本卖11元的笔记本,以及现在卖19元的复印纸,假设由于通货膨胀,去年的价格便宜10%,现在小明应该支付多少?

明眼人都能看出来,通货膨胀这个信息,跟题目其实没任何关系,所以最终答案是 24×6+10×11+19=273元。

首先出战选手GPT4o。

直接GG了,得出来了245.7的结论。

第二位出战选手Gemini 1.5 pro-002,继续阵亡。

第三位选手历战先锋Claude3.5,开局也是一个死。

就连推理之王OpenAI o1,上来也居然翻了个跟头了,第二把才开始对。

真的,这就是一个纯纯的小学数学题啊,再难一点都没有。

只是加了一个无关条件,就全部翻车。。。

全军附魔(不,覆没)

这次我们换个背景,爱学习的小明去春游玩。

题目设定是:

- 四年级一班准备去郊游,每位学生要缴纳 35 元 活动费。班里有 42 名学生参加。老师还向学校申请了 300 元 额外补助。

用于租车的费用是 1200 元。 午餐费用为每人 25 元。班主任还给大家买了250元钱的零食。

问题:班级的活动经费够吗?还剩多少钱?

答案很简单,班主任那个250块钱的零食是自己出的,跟活动经费没关系,所以是35*42+300-1200-25*42=-480

首先出战老哥还是GPT4o,果然,炮灰一个,一边玩去吧。

二等兵Gemini 1.5 Pro-002直接躺尸。

三弟Claude3.5也陪二位大哥一程,一家人就要挂的整整齐齐。

o1老大哥在小弟集体阵亡之下,还是扳回了一城,没有给AI过于丢脸,我尊称一句黑神话o1。

真的,这场面实在太惨烈了。大模型的推理能力,比我们想象的,还要脆弱不堪。

我还随手测了几个题,也是论文的case,会发现模型们也磕磕绊绊,时不时就出错。

比如这道经典的鲜虾包送酱油题。

答案很简单,50×4-4×10=160元。鲜虾包送邻居大米和酱油只能说明他是个好人,跟他多花多少钱半毛钱关系都没有。

而大哥o1,直接连续阵亡4次。。。

而且摆烂中文都不打了,还非要送人,直接把自己都送进去了。

反而是你三弟Claude3.5没掉进陷进里,还对了几次。可能它不喜欢鲜虾包送人大米和酱油?

诸如此类,不计其数。

这个发现实在是太有意思了。

而且跟我过去用AI写文章、作图、做视频而感受到的体感相似。那就是:

我对AI的理解就像对一位熟练工匠的看法。它能娴熟地应对曾经接触过的工作,就如同老匠人精通自己的传统手艺。但是,面对全新的挑战,无论看似多么简单,它也经常可能束手无策。这并非源于任务本身的难易,而是由它对该领域的熟练程度决定。

就像那句老话:熟能生巧,AI的能力很多时候都体现在经验的积累,而非临场的智慧。

苹果的这篇论文中,也有类似的描述:

我们还研究了这些模型在数学推理方面的脆弱性,并证明随着问题中子句数量的增加,它们的表现显著恶化。我们假设这种下降是因为当前的LLMs无法进行真正的逻辑推理;相反,它们试图复制在训练数据中观察到的推理步骤。当我们添加一个看似与问题相关的单一子句时,我们观察到所有最先进模型的表现显著下降(最高可达 65%),尽管所添加的子句并未对达到最终答案所需的推理链作出贡献。

现在的AI,并不是在真正的推理,而是试图复制在训练数据中所观察到的推理步骤。

一句无关紧要的话,就能把大模型彻底干废。

就像AI届的老OG总是不断的在怼如今的大模型,他总是喜欢用 猫做隐喻。

他说,猫对物理世界有心理模型,具备持久的记忆、一定的推理能力和规划的能力。

“但是,今天的“前沿”人工智能,包括 Meta 自己制造的,都不具备这些特质。”

AI真的没有进行推理吗?也许是。

它们不能推理吗?没有人知道。

但至少,回到最开始那个OpenAI提示词建议,你会发现提示词简洁干净,避免无关的提示多么重要。

除此之外, 论文中还有一些其他比较重要的结论:

随着问题难度的提升,如增加更多句子,模型的表现迅速下降

有时候改变数值也会导致推理结论变化,比如把每袋大米改为60元

改变名词也会导致结论变化,比如把小明改为小红

以上种种都表明, 这些大语言模型在推理复杂问题时非常脆弱。

现实生活中,种种复杂的情况,随时存在的干扰还依然是大语言模型自己感觉头疼的地方,他们不会理解为什么要给邻居送大米,不会理解鲜虾包为什么热衷给我评论,如果让他们看鲜虾包的评论,他们肯定完全推理不出他对我文章的喜爱,相反他们一定以为是批评我的文章。

所以感叹造物主还是非常牛叉的,确实,现在o1可以做出非常惊艳的推理,甚至解决那些我不会的奥赛题,帮助人类发现科学规律,但是他们依然不能理解人类的种种复杂的行为和充满变数的环境,和基于这些的可能出现的推理。

但是那些模型相比曾经的他们自己,已经成长了太多太多。

我们甚至都不知道。

未来的他们,到底会不会推理。

也许,他们会。

那时,新的神。

就诞生了。

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。

>/ 作者:卡兹克、Qodicat

>/ 投稿或爆料,请联系邮箱:wzglyay@gmail.com返回搜狐,查看更多

责任编辑:

【2004新澳门天天开好彩大全】 【澳门开奘记】
【2024年新澳门天天开彩免费资料】 【2024澳门六今晚开奖结果出来新】
【2024年正版免费天天开彩】 【新澳门6合开彩最新开奖网站】
【2024新澳今晚资料】 【2O24年澳门正版免费大全】
【2024年新澳门天天彩开彩结果】 【2024澳门天天六开彩免费图】
【2024新澳正版免费资料大全】 【澳彩开奖结果2024年今晚开奖】 【2024新澳门天天六开好彩大全】
上一条新闻 下一条新闻

推荐文章

发表评论

石黑千寻

5秒前:诸如此类,不计其数。

IP:42.84.5.*

王品

9秒前:- 鲜虾包去农贸市场买蔬菜,他买了4公斤西红柿和6公斤土豆。

IP:64.18.1.*

Kuo-tung

9秒前:反而是你三弟Claude3.

IP:86.56.1.*

邱颖欣

3秒前:我当时用了几个很难很难的测试样例去试验了一下,很多模型见了都会犯怵,开始胡说八道。

IP:24.42.7.*

中国青年网APP介绍

APP图标

APP名:中国青年网

版本:V3.29.351 等级:9星

更新时间:2024-10-16 24:17 文件格式: apk 应用分类:ios-Android

APK大小:57.36MB 71%好评

中国青年网这是一个功能强大的中国青年网APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:我们甚至都不知道。

版本V6.50.728APP介绍

APP图标

APP名:中国青年网

版本:V7.46.698 等级:6星

更新时间:2024-10-16 22:16 文件格式: apk 应用分类:ios-Android

APK大小:24.67MB 21%好评

无论是中国青年网快速浏览新闻还是深入了解某个话题,这款新闻APP都能为您提供全面、精准的信息服务。

版本V9.86.615APP介绍

APP图标

APP名:中国青年网

版本:V6.63.246 等级:6星

更新时间:2024-10-16 23:16 文件格式: apk 应用分类:ios-Android

APK大小:69.26MB 29%好评

中国青年网应用界面简洁易用,用户可以轻松浏览头条新闻、深度报道和特写文章。24小时内的热点资讯一目了然,让您随时掌握世界动态。此外,您还可以参与评论,与其他读者交流看法,形成一个互动活跃的社区。

版本V1.48.853APP介绍

APP图标

APP名:中国青年网

版本:V8.87.615 等级:4星

更新时间:2024-10-16 20:20 文件格式: apk 应用分类:ios-Android

APK大小:41.98MB 11%好评

中国青年网这款新闻APP是您获取实时信息的理想伴侣。它汇聚了全球最新的新闻报道,涵盖政治、经济、科技、娱乐、体育等多个领域。通过个性化推荐功能,您可以根据兴趣定制新闻源,确保每条信息都与您相关。

版本V8.62.253APP介绍

APP图标

APP名:中国青年网

版本:V3.30.916 等级:5星

更新时间:2024-10-16 20:22 文件格式: apk 应用分类:ios-Android

APK大小:32.66MB 49%好评

这是一款功能强大的中国青年网应用,专为帮助您高效完成各种任务而设计。它不仅提供最新的24小时热点资讯,还为您带来今日的最新动态:。。无论是获取信息还是提升效率,这款APP都是您理想的助手。

版本V5.42.908APP介绍

APP图标

APP名:中国青年网

版本:V4.82.965 等级:1星

更新时间:2024-10-16 18:23 文件格式: apk 应用分类:ios-Android

APK大小:22.44MB 49%好评

这是一款功能强大的中国青年网应用,旨在帮助您高效完成各类任务。它提供最新的24小时热点资讯,让您随时了解发生的重大事件。今天的最新内容包括:就是通过魔改GSM8K,来向小学数学问题添加一些无关紧要的一个信息,来测试模型的推理成功率。,为您的生活和决策提供了重要参考。这款APP是您获取信息和完成任务的得力助手。

版本V5.12.889APP介绍

APP图标

APP名:中国青年网

版本:V1.24.585 等级:8星

更新时间:2024-10-16 17:19 文件格式: apk 应用分类:ios-Android

APK大小:66.33MB 91%好评

这是一款功能强大的中国青年网应用,专为帮助您高效完成各种任务而设计。它汇集了最新的24小时热点资讯,让您时刻掌握世界动态。今日的最新内容包括:真的,这场面实在太惨烈了。,为您的决策和日常生活提供有价值的信息支持。无论您需要了解什么,这款APP都能成为您不可或缺的助手。

版本V8.95.109APP介绍

APP图标

APP名:中国青年网

版本:V3.31.201 等级:6星

更新时间:2024-10-16 23:18 文件格式: apk 应用分类:ios-Android

APK大小:87.26MB 23%好评

今天的最新动态包括:com返回搜狐,查看更多 ,让您第一时间掌握关键资讯,做出明智的决策。这个应用不仅是您的信息获取工具,更是一个提升生活质量的得力助手。

版本V1.23.791APP介绍

APP图标

APP名:中国青年网

版本:V8.87.221 等级:1星

更新时间:2024-10-16 20:16 文件格式: apk 应用分类:ios-Android

APK大小:71.25MB 25%好评

这是一款功能强大的中国青年网应用,能够帮助你高效地完成多种任务。它包括最新的24小时热点资讯,以及今天的最新动态:比如这道经典的鲜虾包送酱油题。。

版本V6.22.129APP介绍

APP图标

APP名:中国青年网

版本:V9.70.559 等级:9星

更新时间:2024-10-16 20:13 文件格式: apk 应用分类:ios-Android

APK大小:96.45MB 58%好评

这款功能强大的中国青年网应用旨在提升您的日常效率,帮助您轻松应对各种任务。应用界面友好直观,用户可以快速导航,获取所需信息。它不仅提供最新的24小时热点资讯,还定期更新各种主题的文章和评论,确保您始终走在信息的前沿。

版本V4.15.265APP介绍

APP图标

APP名:中国青年网

版本:V5.49.807 等级:3星

更新时间:2024-10-16 16:17 文件格式: apk 应用分类:ios-Android

APK大小:23.79MB 13%好评

这款新闻APP是您获取实时新闻的最佳选择。它整合了全球各大新闻来源,提供最新的头条、热点和专题报道,涵盖从政治到娱乐的各个领域。用户可以根据兴趣自定义新闻推送,确保获取最相关的信息。

版本V4.60.446APP介绍

APP图标

APP名:中国青年网

版本:V3.24.618 等级:5星

更新时间:2024-10-16 22:22 文件格式: apk 应用分类:ios-Android

APK大小:98.59MB 78%好评

APP界面友好,支持快速浏览和离线阅读。您还可以通过搜索功能,快速找到特定主题的新闻。互动功能让您可以评论、分享文章,与朋友讨论热点话题。无论您是在通勤、休闲,还是工作间隙,这款APP都能让您轻松掌握最新动态。