O Papagaio Estocástico no Ombro do LLM: Uma Avaliação Sumativa da Compreensão de Conceitos Físicos
The Stochastic Parrot on LLM's Shoulder: A Summative Assessment of Physical Concept Understanding
February 13, 2025
Autores: Mo Yu, Lemao Liu, Junjie Wu, Tsz Ting Chung, Shunchi Zhang, Jiangnan Li, Dit-Yan Yeung, Jie Zhou
cs.AI
Resumo
De forma sistemática, investigamos uma pergunta amplamente feita: Os LLMs realmente entendem o que dizem?, que se relaciona com o termo mais familiar Papagaio Estocástico. Para isso, propomos uma avaliação sumativa sobre uma tarefa de compreensão de conceitos físicos cuidadosamente elaborada, PhysiCo. Nossa tarefa alivia o problema de memorização por meio do uso de entradas em formato de grade que descrevem abstratamente fenômenos físicos. As grades representam diferentes níveis de compreensão, desde o fenômeno central, exemplos de aplicação até analogias com outros padrões abstratos no mundo da grade. Um estudo abrangente sobre nossa tarefa demonstra: (1) LLMs de ponta, incluindo GPT-4o, o1 e Gemini 2.0 flash thinking, ficam cerca de ~40% atrás dos humanos; (2) o fenômeno do papagaio estocástico está presente nos LLMs, pois falham em nossa tarefa de grade, mas conseguem descrever e reconhecer bem os mesmos conceitos em linguagem natural; (3) nossa tarefa desafia os LLMs devido a dificuldades intrínsecas, em vez do formato de grade não familiar, já que o aprendizado em contexto e o ajuste fino nos mesmos dados formatados pouco acrescentaram ao seu desempenho.
English
In a systematic way, we investigate a widely asked question: Do LLMs really
understand what they say?, which relates to the more familiar term Stochastic
Parrot. To this end, we propose a summative assessment over a carefully
designed physical concept understanding task, PhysiCo. Our task alleviates the
memorization issue via the usage of grid-format inputs that abstractly describe
physical phenomena. The grids represents varying levels of understanding, from
the core phenomenon, application examples to analogies to other abstract
patterns in the grid world. A comprehensive study on our task demonstrates: (1)
state-of-the-art LLMs, including GPT-4o, o1 and Gemini 2.0 flash thinking, lag
behind humans by ~40%; (2) the stochastic parrot phenomenon is present in LLMs,
as they fail on our grid task but can describe and recognize the same concepts
well in natural language; (3) our task challenges the LLMs due to intrinsic
difficulties rather than the unfamiliar grid format, as in-context learning and
fine-tuning on same formatted data added little to their performance.Summary
AI-Generated Summary