ChatPaper.aiChatPaper

Стохастический попугай на плече LLM: Суммативная оценка понимания физических концепций

The Stochastic Parrot on LLM's Shoulder: A Summative Assessment of Physical Concept Understanding

February 13, 2025
Авторы: Mo Yu, Lemao Liu, Junjie Wu, Tsz Ting Chung, Shunchi Zhang, Jiangnan Li, Dit-Yan Yeung, Jie Zhou
cs.AI

Аннотация

Систематически мы исследуем широко обсуждаемый вопрос: Действительно ли LLM понимают то, что они говорят?, что связано с более знакомым термином Стохастический Попугай. Для этой цели мы предлагаем суммативную оценку на тщательно разработанной задаче понимания физического концепта, PhysiCo. Наша задача уменьшает проблему запоминания путем использования входных данных в виде сетки, которые абстрактно описывают физические явления. Сетки представляют различные уровни понимания, от основного явления, примеров применения до аналогий с другими абстрактными шаблонами в мире сеток. Комплексное исследование нашей задачи демонстрирует: (1) LLM последнего поколения, включая GPT-4o, o1 и Gemini 2.0 flash thinking, отстают от людей примерно на ~40%; (2) феномен стохастического попугая присутствует у LLM, поскольку они терпят неудачу в нашей задаче на сетке, но могут хорошо описывать и распознавать те же концепции на естественном языке; (3) наша задача представляет для LLM вызов из-за внутренних трудностей, а не из-за незнакомого формата сетки, поскольку контекстное обучение и настройка на тех же данных в формате добавили мало к их производительности.
English
In a systematic way, we investigate a widely asked question: Do LLMs really understand what they say?, which relates to the more familiar term Stochastic Parrot. To this end, we propose a summative assessment over a carefully designed physical concept understanding task, PhysiCo. Our task alleviates the memorization issue via the usage of grid-format inputs that abstractly describe physical phenomena. The grids represents varying levels of understanding, from the core phenomenon, application examples to analogies to other abstract patterns in the grid world. A comprehensive study on our task demonstrates: (1) state-of-the-art LLMs, including GPT-4o, o1 and Gemini 2.0 flash thinking, lag behind humans by ~40%; (2) the stochastic parrot phenomenon is present in LLMs, as they fail on our grid task but can describe and recognize the same concepts well in natural language; (3) our task challenges the LLMs due to intrinsic difficulties rather than the unfamiliar grid format, as in-context learning and fine-tuning on same formatted data added little to their performance.

Summary

AI-Generated Summary

PDF1943February 14, 2025