Der stochastische Papagei auf der Schulter des LLM: Eine zusammenfassende Bewertung des Verständnisses physikalischer Konzepte

papers.abstract

Auf systematische Weise untersuchen wir eine weit verbreitete Frage: Verstehen LLMs wirklich, was sie sagen?, die sich auf den geläufigeren Begriff des Stochastischen Papageis bezieht. Zu diesem Zweck schlagen wir eine zusammenfassende Bewertung über eine sorgfältig konzipierte Aufgabe zum Verständnis physikalischer Konzepte, PhysiCo, vor. Unsere Aufgabe behebt das Problem des reinen Auswendiglernens durch die Verwendung von Rasterformat-Eingaben, die physikalische Phänomene abstrakt beschreiben. Die Raster repräsentieren unterschiedliche Verständnisstufen, vom Kernphänomen über Anwendungsbeispiele bis hin zu Analogien zu anderen abstrakten Mustern in der Rasterwelt. Eine umfassende Studie zu unserer Aufgabe zeigt: (1) LLMs auf dem neuesten Stand der Technik, einschließlich GPT-4o, o1 und Gemini 2.0 Flash Thinking, liegen um ~40% hinter Menschen zurück; (2) das Phänomen des Stochastischen Papageis ist bei LLMs vorhanden, da sie bei unserer Rasteraufgabe scheitern, aber dieselben Konzepte gut in natürlicher Sprache beschreiben und erkennen können; (3) unsere Aufgabe stellt die LLMs aufgrund intrinsischer Schwierigkeiten heraus, anstatt des ungewohnten Rasterformats, da das Lernen im Kontext und das Feintuning auf denselben formatierten Daten wenig zur Verbesserung ihrer Leistung beitrugen.

English

In a systematic way, we investigate a widely asked question: Do LLMs really understand what they say?, which relates to the more familiar term Stochastic Parrot. To this end, we propose a summative assessment over a carefully designed physical concept understanding task, PhysiCo. Our task alleviates the memorization issue via the usage of grid-format inputs that abstractly describe physical phenomena. The grids represents varying levels of understanding, from the core phenomenon, application examples to analogies to other abstract patterns in the grid world. A comprehensive study on our task demonstrates: (1) state-of-the-art LLMs, including GPT-4o, o1 and Gemini 2.0 flash thinking, lag behind humans by ~40%; (2) the stochastic parrot phenomenon is present in LLMs, as they fail on our grid task but can describe and recognize the same concepts well in natural language; (3) our task challenges the LLMs due to intrinsic difficulties rather than the unfamiliar grid format, as in-context learning and fine-tuning on same formatted data added little to their performance.

Der stochastische Papagei auf der Schulter des LLM: Eine zusammenfassende Bewertung des Verständnisses physikalischer Konzepte

The Stochastic Parrot on LLM's Shoulder: A Summative Assessment of Physical Concept Understanding

papers.abstract

Support