De Stochastische Papegaai op de Schouder van LLM: Een Samenvattende Beoordeling van Begrip van Fysieke ConceptenThe Stochastic Parrot on LLM's Shoulder: A Summative Assessment of
Physical Concept Understanding
Op systematische wijze onderzoeken we een veelgestelde vraag: Begrijpen LLM's echt wat ze zeggen?, wat verband houdt met de meer bekende term Stochastische Papegaai. Hiertoe stellen we een samenvattende beoordeling voor over een zorgvuldig ontworpen taak voor het begrijpen van fysieke concepten, PhysiCo. Onze taak verlicht het memorisatieprobleem door het gebruik van rasterformat invoer die abstract fysieke fenomenen beschrijven. De rasters vertegenwoordigen verschillende niveaus van begrip, van het kernfenomeen, toepassingsvoorbeelden tot analogieën met andere abstracte patronen in de rastwereld. Een uitgebreide studie van onze taak toont aan: (1) LLM's van de nieuwste generatie, waaronder GPT-4o, o1 en Gemini 2.0 flash thinking, lopen ~40% achter op mensen; (2) het stochastische papegaai fenomeen komt voor bij LLM's, aangezien ze falen in onze rastertaak maar dezelfde concepten goed kunnen beschrijven en herkennen in natuurlijke taal; (3) onze taak daagt de LLM's uit vanwege intrinsieke moeilijkheden in plaats van het onbekende rasterformaat, aangezien in-context leren en fijnafstemming op dezelfde geformatteerde gegevens weinig toevoegden aan hun prestaties.