ChatPaper.aiChatPaper

El loro estocástico en el hombro del LLM: Una evaluación sumativa de la comprensión de conceptos físicos.

The Stochastic Parrot on LLM's Shoulder: A Summative Assessment of Physical Concept Understanding

February 13, 2025
Autores: Mo Yu, Lemao Liu, Junjie Wu, Tsz Ting Chung, Shunchi Zhang, Jiangnan Li, Dit-Yan Yeung, Jie Zhou
cs.AI

Resumen

De manera sistemática, investigamos una pregunta ampliamente planteada: ¿Los LLMs realmente comprenden lo que dicen?, la cual se relaciona con el término más familiar de loro estocástico. Con este fin, proponemos una evaluación sumativa sobre una tarea de comprensión de conceptos físicos cuidadosamente diseñada, PhysiCo. Nuestra tarea alivia el problema de la memorización mediante el uso de entradas en formato de cuadrícula que describen abstractamente fenómenos físicos. Las cuadrículas representan diferentes niveles de comprensión, desde el fenómeno central, ejemplos de aplicación hasta analogías con otros patrones abstractos en el mundo de la cuadrícula. Un estudio exhaustivo sobre nuestra tarea demuestra: (1) los LLMs de última generación, incluidos GPT-4o, o1 y Gemini 2.0 flash thinking, quedan rezagados respecto a los humanos en ~40%; (2) el fenómeno del loro estocástico está presente en los LLMs, ya que fallan en nuestra tarea de cuadrícula pero pueden describir y reconocer los mismos conceptos bien en lenguaje natural; (3) nuestra tarea desafía a los LLMs debido a dificultades intrínsecas en lugar del formato de cuadrícula no familiar, ya que el aprendizaje en contexto y el ajuste fino en datos con el mismo formato aportaron poco a su rendimiento.
English
In a systematic way, we investigate a widely asked question: Do LLMs really understand what they say?, which relates to the more familiar term Stochastic Parrot. To this end, we propose a summative assessment over a carefully designed physical concept understanding task, PhysiCo. Our task alleviates the memorization issue via the usage of grid-format inputs that abstractly describe physical phenomena. The grids represents varying levels of understanding, from the core phenomenon, application examples to analogies to other abstract patterns in the grid world. A comprehensive study on our task demonstrates: (1) state-of-the-art LLMs, including GPT-4o, o1 and Gemini 2.0 flash thinking, lag behind humans by ~40%; (2) the stochastic parrot phenomenon is present in LLMs, as they fail on our grid task but can describe and recognize the same concepts well in natural language; (3) our task challenges the LLMs due to intrinsic difficulties rather than the unfamiliar grid format, as in-context learning and fine-tuning on same formatted data added little to their performance.

Summary

AI-Generated Summary

PDF1943February 14, 2025