Der stochastische Papagei auf der Schulter des LLM: Eine zusammenfassende Bewertung des Verständnisses physikalischer Konzepte
The Stochastic Parrot on LLM's Shoulder: A Summative Assessment of Physical Concept Understanding
February 13, 2025
Autoren: Mo Yu, Lemao Liu, Junjie Wu, Tsz Ting Chung, Shunchi Zhang, Jiangnan Li, Dit-Yan Yeung, Jie Zhou
cs.AI
Zusammenfassung
Auf systematische Weise untersuchen wir eine weit verbreitete Frage: Verstehen LLMs wirklich, was sie sagen?, die sich auf den geläufigeren Begriff des Stochastischen Papageis bezieht. Zu diesem Zweck schlagen wir eine zusammenfassende Bewertung über eine sorgfältig konzipierte Aufgabe zum Verständnis physikalischer Konzepte, PhysiCo, vor. Unsere Aufgabe behebt das Problem des reinen Auswendiglernens durch die Verwendung von Rasterformat-Eingaben, die physikalische Phänomene abstrakt beschreiben. Die Raster repräsentieren unterschiedliche Verständnisstufen, vom Kernphänomen über Anwendungsbeispiele bis hin zu Analogien zu anderen abstrakten Mustern in der Rasterwelt. Eine umfassende Studie zu unserer Aufgabe zeigt: (1) LLMs auf dem neuesten Stand der Technik, einschließlich GPT-4o, o1 und Gemini 2.0 Flash Thinking, liegen um ~40% hinter Menschen zurück; (2) das Phänomen des Stochastischen Papageis ist bei LLMs vorhanden, da sie bei unserer Rasteraufgabe scheitern, aber dieselben Konzepte gut in natürlicher Sprache beschreiben und erkennen können; (3) unsere Aufgabe stellt die LLMs aufgrund intrinsischer Schwierigkeiten heraus, anstatt des ungewohnten Rasterformats, da das Lernen im Kontext und das Feintuning auf denselben formatierten Daten wenig zur Verbesserung ihrer Leistung beitrugen.
English
In a systematic way, we investigate a widely asked question: Do LLMs really
understand what they say?, which relates to the more familiar term Stochastic
Parrot. To this end, we propose a summative assessment over a carefully
designed physical concept understanding task, PhysiCo. Our task alleviates the
memorization issue via the usage of grid-format inputs that abstractly describe
physical phenomena. The grids represents varying levels of understanding, from
the core phenomenon, application examples to analogies to other abstract
patterns in the grid world. A comprehensive study on our task demonstrates: (1)
state-of-the-art LLMs, including GPT-4o, o1 and Gemini 2.0 flash thinking, lag
behind humans by ~40%; (2) the stochastic parrot phenomenon is present in LLMs,
as they fail on our grid task but can describe and recognize the same concepts
well in natural language; (3) our task challenges the LLMs due to intrinsic
difficulties rather than the unfamiliar grid format, as in-context learning and
fine-tuning on same formatted data added little to their performance.Summary
AI-Generated Summary