Comprendere il ragionamento nei LLM attraverso l'allocazione strategica dell'informazione in condizioni di incertezza
Understanding Reasoning in LLMs through Strategic Information Allocation under Uncertainty
March 16, 2026
Autori: Jeonghye Kim, Xufang Luo, Minbeom Kim, Sangmook Lee, Dongsheng Li, Yuqing Yang
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) spesso mostrano momenti di "intuizione" durante il ragionamento, come apparenti autocorrezioni seguenti a token come "Aspetta", ma i loro meccanismi sottostanti rimangono poco chiari. Introduciamo un quadro teorico-informativo che scompone il ragionamento in informazione procedurale e verbalizzazione epistemica - l'esternalizzazione esplicita dell'incertezza che supporta azioni di controllo a valle. Dimostriamo che un ragionamento puramente procedurale può diventare informativamente stagnante, mentre la verbalizzazione epistemica permette un'acquisizione continua di informazioni ed è cruciale per raggiungere la sufficienza informativa. I risultati empirici dimostrano che le forti prestazioni nel ragionamento sono guidate dall'esternalizzazione dell'incertezza piuttosto che da specifici token superficiali. Il nostro quadro unifica precedenti scoperte sui momenti di intuizione e sugli esperimenti post-addestramento, e offre spunti per la progettazione futura di modelli di ragionamento.
English
LLMs often exhibit Aha moments during reasoning, such as apparent self-correction following tokens like "Wait," yet their underlying mechanisms remain unclear. We introduce an information-theoretic framework that decomposes reasoning into procedural information and epistemic verbalization - the explicit externalization of uncertainty that supports downstream control actions. We show that purely procedural reasoning can become informationally stagnant, whereas epistemic verbalization enables continued information acquisition and is critical for achieving information sufficiency. Empirical results demonstrate that strong reasoning performance is driven by uncertainty externalization rather than specific surface tokens. Our framework unifies prior findings on Aha moments and post-training experiments, and offers insights for future reasoning model design.