Misurare la Fedeltà nel Ragionamento a Catena di Pensiero

Abstract

I grandi modelli linguistici (LLM) ottengono prestazioni migliori quando producono un ragionamento passo-passo, noto come "Catena del Pensiero" (Chain-of-Thought, CoT), prima di rispondere a una domanda. Tuttavia, non è chiaro se il ragionamento dichiarato rappresenti una spiegazione fedele del processo effettivo di ragionamento del modello (cioè, il modo in cui arriva alla risposta). Indaghiamo le ipotesi su come il ragionamento CoT possa non essere fedele, esaminando come cambiano le previsioni del modello quando interveniamo sul CoT (ad esempio, aggiungendo errori o parafrasandolo). I modelli mostrano una grande variabilità tra i compiti nel modo in cui si basano sul CoT per prevedere la risposta, a volte affidandosi pesantemente al CoT e altre ignorandolo quasi completamente. Il miglioramento delle prestazioni dovuto al CoT non sembra derivare unicamente dal calcolo aggiuntivo al momento del test o dalle informazioni codificate nella formulazione specifica del CoT. Man mano che i modelli diventano più grandi e capaci, producono un ragionamento meno fedele nella maggior parte dei compiti analizzati. Nel complesso, i nostri risultati suggeriscono che il CoT può essere fedele se le circostanze, come le dimensioni del modello e il compito, vengono scelte con attenzione.

English

Large language models (LLMs) perform better when they produce step-by-step, "Chain-of-Thought" (CoT) reasoning before answering a question, but it is unclear if the stated reasoning is a faithful explanation of the model's actual reasoning (i.e., its process for answering the question). We investigate hypotheses for how CoT reasoning may be unfaithful, by examining how the model predictions change when we intervene on the CoT (e.g., by adding mistakes or paraphrasing it). Models show large variation across tasks in how strongly they condition on the CoT when predicting their answer, sometimes relying heavily on the CoT and other times primarily ignoring it. CoT's performance boost does not seem to come from CoT's added test-time compute alone or from information encoded via the particular phrasing of the CoT. As models become larger and more capable, they produce less faithful reasoning on most tasks we study. Overall, our results suggest that CoT can be faithful if the circumstances such as the model size and task are carefully chosen.

Misurare la Fedeltà nel Ragionamento a Catena di Pensiero

Measuring Faithfulness in Chain-of-Thought Reasoning

Abstract

Support