De Stochastische Papegaai op de Schouder van LLM: Een Samenvattende Beoordeling van Begrip van Fysieke Concepten

Samenvatting

Op systematische wijze onderzoeken we een veelgestelde vraag: Begrijpen LLM's echt wat ze zeggen?, wat verband houdt met de meer bekende term Stochastische Papegaai. Hiertoe stellen we een samenvattende beoordeling voor over een zorgvuldig ontworpen taak voor het begrijpen van fysieke concepten, PhysiCo. Onze taak verlicht het memorisatieprobleem door het gebruik van rasterformat invoer die abstract fysieke fenomenen beschrijven. De rasters vertegenwoordigen verschillende niveaus van begrip, van het kernfenomeen, toepassingsvoorbeelden tot analogieën met andere abstracte patronen in de rastwereld. Een uitgebreide studie van onze taak toont aan: (1) LLM's van de nieuwste generatie, waaronder GPT-4o, o1 en Gemini 2.0 flash thinking, lopen ~40% achter op mensen; (2) het stochastische papegaai fenomeen komt voor bij LLM's, aangezien ze falen in onze rastertaak maar dezelfde concepten goed kunnen beschrijven en herkennen in natuurlijke taal; (3) onze taak daagt de LLM's uit vanwege intrinsieke moeilijkheden in plaats van het onbekende rasterformaat, aangezien in-context leren en fijnafstemming op dezelfde geformatteerde gegevens weinig toevoegden aan hun prestaties.

English

In a systematic way, we investigate a widely asked question: Do LLMs really understand what they say?, which relates to the more familiar term Stochastic Parrot. To this end, we propose a summative assessment over a carefully designed physical concept understanding task, PhysiCo. Our task alleviates the memorization issue via the usage of grid-format inputs that abstractly describe physical phenomena. The grids represents varying levels of understanding, from the core phenomenon, application examples to analogies to other abstract patterns in the grid world. A comprehensive study on our task demonstrates: (1) state-of-the-art LLMs, including GPT-4o, o1 and Gemini 2.0 flash thinking, lag behind humans by ~40%; (2) the stochastic parrot phenomenon is present in LLMs, as they fail on our grid task but can describe and recognize the same concepts well in natural language; (3) our task challenges the LLMs due to intrinsic difficulties rather than the unfamiliar grid format, as in-context learning and fine-tuning on same formatted data added little to their performance.

De Stochastische Papegaai op de Schouder van LLM: Een Samenvattende Beoordeling van Begrip van Fysieke Concepten

The Stochastic Parrot on LLM's Shoulder: A Summative Assessment of Physical Concept Understanding

Samenvatting

Support