LLM肩上的随机鹦鹉:对物理概念理解的总结评估The Stochastic Parrot on LLM's Shoulder: A Summative Assessment of
Physical Concept Understanding
我们系统地调查一个广泛讨论的问题:LLM是否真正理解自己所说的内容?这与更熟悉的术语“随机鹦鹉”相关。为此,我们提出了一个对物理概念理解任务PhysiCo进行总结评估的方案,该任务经过精心设计,通过使用抽象描述物理现象的网格格式输入来缓解记忆问题。这些网格代表不同层次的理解,从核心现象、应用示例到与网格世界中其他抽象模式的类比。对我们任务的全面研究表明:(1)包括GPT-4o、o1和Gemini 2.0在内的最先进的LLM,其闪念思维落后于人类约40%;(2)LLM中存在随机鹦鹉现象,因为它们在我们的网格任务上失败,但可以在自然语言中很好地描述和识别相同的概念;(3)我们的任务挑战LLM,是由于内在困难而不是不熟悉的网格格式,因为在相同格式的数据上进行上下文学习和微调对它们的表现几乎没有帮助。