LLM 肩上的隨機鸚鵡:對物理概念理解的總結評估The Stochastic Parrot on LLM's Shoulder: A Summative Assessment of
Physical Concept Understanding
我們系統性地探討一個廣泛討論的問題:LLM 是否真正理解自己所說的話?這與更為熟悉的「隨機鸚鵡」術語有關。為此,我們提出了一個經過精心設計的物理概念理解任務 PhysiCo 的綜合評估。我們的任務通過使用抽象描述物理現象的網格格式輸入來緩解記憶問題。這些網格代表不同程度的理解,從核心現象、應用示例到與網格世界中其他抽象模式的類比。對我們任務的全面研究表明:(1)包括 GPT-4o、o1 和 Gemini 2.0 快閃思維在內的最先進的 LLMs 落後於人類約 40%;(2)隨機鸚鵡現象存在於 LLMs 中,因為它們在我們的網格任務上失敗,但可以在自然語言中很好地描述和識別相同的概念;(3)我們的任務挑戰 LLMs 是由於內在困難,而不是不熟悉的網格格式,因為在相同格式的數據上的上下文學習和微調對它們的表現幫助不大。