Ancoraggi del Pensiero: Quali Passaggi di Ragionamento dei Modelli Linguistici Sono Cruciali?
Thought Anchors: Which LLM Reasoning Steps Matter?
June 23, 2025
Autori: Paul C. Bogdan, Uzay Macar, Neel Nanda, Arthur Conmy
cs.AI
Abstract
I modelli linguistici di grandi dimensioni con capacità di ragionamento hanno recentemente raggiunto prestazioni all'avanguardia in molti campi. Tuttavia, il loro ragionamento a catena di pensiero di lunga durata crea sfide di interpretabilità, poiché ogni token generato dipende da tutti quelli precedenti, rendendo più difficile scomporre il calcolo. Sosteniamo che analizzare le tracce di ragionamento a livello di frase sia un approccio promettente per comprendere i processi di ragionamento. Presentiamo tre metodi complementari di attribuzione: (1) un metodo black-box che misura l'importanza controfattuale di ciascuna frase confrontando le risposte finali in 100 esecuzioni condizionate alla generazione da parte del modello di quella frase o di una con significato diverso; (2) un metodo white-box che aggrega i pattern di attenzione tra coppie di frasi, identificando frasi di "broadcasting" che ricevono un'attenzione sproporzionata da tutte le frasi future tramite teste di attenzione "riceventi"; (3) un metodo di attribuzione causale che misura le connessioni logiche tra frasi sopprimendo l'attenzione verso una frase e misurando l'effetto sui token di ciascuna frase successiva. Ogni metodo fornisce prove dell'esistenza di ancore di pensiero, passaggi di ragionamento che hanno un'importanza sproporzionata e che influenzano in modo significativo il processo di ragionamento successivo. Queste ancore di pensiero sono tipicamente frasi di pianificazione o backtracking. Forniamo uno strumento open-source (www.thought-anchors.com) per visualizzare i risultati dei nostri metodi e presentiamo uno studio di caso che mostra pattern convergenti tra i metodi che mappano come un modello esegue un ragionamento a più passaggi. La coerenza tra i metodi dimostra il potenziale dell'analisi a livello di frase per una comprensione più profonda dei modelli di ragionamento.
English
Reasoning large language models have recently achieved state-of-the-art
performance in many fields. However, their long-form chain-of-thought reasoning
creates interpretability challenges as each generated token depends on all
previous ones, making the computation harder to decompose. We argue that
analyzing reasoning traces at the sentence level is a promising approach to
understanding reasoning processes. We present three complementary attribution
methods: (1) a black-box method measuring each sentence's counterfactual
importance by comparing final answers across 100 rollouts conditioned on the
model generating that sentence or one with a different meaning; (2) a white-box
method of aggregating attention patterns between pairs of sentences, which
identified ``broadcasting'' sentences that receive disproportionate attention
from all future sentences via ``receiver'' attention heads; (3) a causal
attribution method measuring logical connections between sentences by
suppressing attention toward one sentence and measuring the effect on each
future sentence's tokens. Each method provides evidence for the existence of
thought anchors, reasoning steps that have outsized importance and that
disproportionately influence the subsequent reasoning process. These thought
anchors are typically planning or backtracking sentences. We provide an
open-source tool (www.thought-anchors.com) for visualizing the outputs of our
methods, and present a case study showing converging patterns across methods
that map how a model performs multi-step reasoning. The consistency across
methods demonstrates the potential of sentence-level analysis for a deeper
understanding of reasoning models.