El loro estocástico en el hombro del LLM: Una evaluación sumativa de la comprensión de conceptos físicos.The Stochastic Parrot on LLM's Shoulder: A Summative Assessment of
Physical Concept Understanding
De manera sistemática, investigamos una pregunta ampliamente planteada: ¿Los LLMs realmente comprenden lo que dicen?, la cual se relaciona con el término más familiar de loro estocástico. Con este fin, proponemos una evaluación sumativa sobre una tarea de comprensión de conceptos físicos cuidadosamente diseñada, PhysiCo. Nuestra tarea alivia el problema de la memorización mediante el uso de entradas en formato de cuadrícula que describen abstractamente fenómenos físicos. Las cuadrículas representan diferentes niveles de comprensión, desde el fenómeno central, ejemplos de aplicación hasta analogías con otros patrones abstractos en el mundo de la cuadrícula. Un estudio exhaustivo sobre nuestra tarea demuestra: (1) los LLMs de última generación, incluidos GPT-4o, o1 y Gemini 2.0 flash thinking, quedan rezagados respecto a los humanos en ~40%; (2) el fenómeno del loro estocástico está presente en los LLMs, ya que fallan en nuestra tarea de cuadrícula pero pueden describir y reconocer los mismos conceptos bien en lenguaje natural; (3) nuestra tarea desafía a los LLMs debido a dificultades intrínsecas en lugar del formato de cuadrícula no familiar, ya que el aprendizaje en contexto y el ajuste fino en datos con el mismo formato aportaron poco a su rendimiento.