Il Pappagallo Stocastico sulla Spalla dell'LLM: Una Valutazione Sommativa della Comprensione dei Concetti FisiciThe Stochastic Parrot on LLM's Shoulder: A Summative Assessment of
Physical Concept Understanding
In modo sistematico, indaghiamo una domanda ampiamente posta: Le LLM comprendono davvero ciò che dicono?, che si ricollega al termine più familiare di Pappagallo Stocastico. A tal fine, proponiamo una valutazione sommativa su un compito di comprensione concettuale fisica attentamente progettato, PhysiCo. Il nostro compito allevia il problema della memorizzazione tramite l'uso di input in formato griglia che descrivono astrattamente i fenomeni fisici. Le griglie rappresentano diversi livelli di comprensione, dal fenomeno principale, agli esempi di applicazione fino alle analogie con altri modelli astratti nel mondo a griglia. Uno studio esaustivo sul nostro compito dimostra: (1) le LLM all'avanguardia, inclusi GPT-4o, o1 e Gemini 2.0 flash thinking, sono indietro rispetto agli esseri umani di circa il 40%; (2) il fenomeno del pappagallo stocastico è presente nelle LLM, poiché falliscono nel nostro compito a griglia ma possono descrivere e riconoscere bene gli stessi concetti nel linguaggio naturale; (3) il nostro compito mette alla prova le LLM a causa di difficoltà intrinseche piuttosto che del formato a griglia sconosciuto, poiché l'apprendimento in contesto e il raffinamento sui dati formattati allo stesso modo hanno aggiunto poco alle loro prestazioni.