Il Pappagallo Stocastico sulla Spalla dell'LLM: Una Valutazione Sommativa della Comprensione dei Concetti Fisici
The Stochastic Parrot on LLM's Shoulder: A Summative Assessment of Physical Concept Understanding
February 13, 2025
Autori: Mo Yu, Lemao Liu, Junjie Wu, Tsz Ting Chung, Shunchi Zhang, Jiangnan Li, Dit-Yan Yeung, Jie Zhou
cs.AI
Abstract
In modo sistematico, indaghiamo una domanda ampiamente posta: Le LLM comprendono davvero ciò che dicono?, che si ricollega al termine più familiare di Pappagallo Stocastico. A tal fine, proponiamo una valutazione sommativa su un compito di comprensione concettuale fisica attentamente progettato, PhysiCo. Il nostro compito allevia il problema della memorizzazione tramite l'uso di input in formato griglia che descrivono astrattamente i fenomeni fisici. Le griglie rappresentano diversi livelli di comprensione, dal fenomeno principale, agli esempi di applicazione fino alle analogie con altri modelli astratti nel mondo a griglia. Uno studio esaustivo sul nostro compito dimostra: (1) le LLM all'avanguardia, inclusi GPT-4o, o1 e Gemini 2.0 flash thinking, sono indietro rispetto agli esseri umani di circa il 40%; (2) il fenomeno del pappagallo stocastico è presente nelle LLM, poiché falliscono nel nostro compito a griglia ma possono descrivere e riconoscere bene gli stessi concetti nel linguaggio naturale; (3) il nostro compito mette alla prova le LLM a causa di difficoltà intrinseche piuttosto che del formato a griglia sconosciuto, poiché l'apprendimento in contesto e il raffinamento sui dati formattati allo stesso modo hanno aggiunto poco alle loro prestazioni.
English
In a systematic way, we investigate a widely asked question: Do LLMs really
understand what they say?, which relates to the more familiar term Stochastic
Parrot. To this end, we propose a summative assessment over a carefully
designed physical concept understanding task, PhysiCo. Our task alleviates the
memorization issue via the usage of grid-format inputs that abstractly describe
physical phenomena. The grids represents varying levels of understanding, from
the core phenomenon, application examples to analogies to other abstract
patterns in the grid world. A comprehensive study on our task demonstrates: (1)
state-of-the-art LLMs, including GPT-4o, o1 and Gemini 2.0 flash thinking, lag
behind humans by ~40%; (2) the stochastic parrot phenomenon is present in LLMs,
as they fail on our grid task but can describe and recognize the same concepts
well in natural language; (3) our task challenges the LLMs due to intrinsic
difficulties rather than the unfamiliar grid format, as in-context learning and
fine-tuning on same formatted data added little to their performance.Summary
AI-Generated Summary