De Stochastische Papegaai op de Schouder van LLM: Een Samenvattende Beoordeling van Begrip van Fysieke Concepten
The Stochastic Parrot on LLM's Shoulder: A Summative Assessment of Physical Concept Understanding
February 13, 2025
Auteurs: Mo Yu, Lemao Liu, Junjie Wu, Tsz Ting Chung, Shunchi Zhang, Jiangnan Li, Dit-Yan Yeung, Jie Zhou
cs.AI
Samenvatting
Op systematische wijze onderzoeken we een veelgestelde vraag: Begrijpen LLM's echt wat ze zeggen?, wat verband houdt met de meer bekende term Stochastische Papegaai. Hiertoe stellen we een samenvattende beoordeling voor over een zorgvuldig ontworpen taak voor het begrijpen van fysieke concepten, PhysiCo. Onze taak verlicht het memorisatieprobleem door het gebruik van rasterformat invoer die abstract fysieke fenomenen beschrijven. De rasters vertegenwoordigen verschillende niveaus van begrip, van het kernfenomeen, toepassingsvoorbeelden tot analogieën met andere abstracte patronen in de rastwereld. Een uitgebreide studie van onze taak toont aan: (1) LLM's van de nieuwste generatie, waaronder GPT-4o, o1 en Gemini 2.0 flash thinking, lopen ~40% achter op mensen; (2) het stochastische papegaai fenomeen komt voor bij LLM's, aangezien ze falen in onze rastertaak maar dezelfde concepten goed kunnen beschrijven en herkennen in natuurlijke taal; (3) onze taak daagt de LLM's uit vanwege intrinsieke moeilijkheden in plaats van het onbekende rasterformaat, aangezien in-context leren en fijnafstemming op dezelfde geformatteerde gegevens weinig toevoegden aan hun prestaties.
English
In a systematic way, we investigate a widely asked question: Do LLMs really
understand what they say?, which relates to the more familiar term Stochastic
Parrot. To this end, we propose a summative assessment over a carefully
designed physical concept understanding task, PhysiCo. Our task alleviates the
memorization issue via the usage of grid-format inputs that abstractly describe
physical phenomena. The grids represents varying levels of understanding, from
the core phenomenon, application examples to analogies to other abstract
patterns in the grid world. A comprehensive study on our task demonstrates: (1)
state-of-the-art LLMs, including GPT-4o, o1 and Gemini 2.0 flash thinking, lag
behind humans by ~40%; (2) the stochastic parrot phenomenon is present in LLMs,
as they fail on our grid task but can describe and recognize the same concepts
well in natural language; (3) our task challenges the LLMs due to intrinsic
difficulties rather than the unfamiliar grid format, as in-context learning and
fine-tuning on same formatted data added little to their performance.Summary
AI-Generated Summary