Âncoras de Pensamento: Quais Passos do Raciocínio de LLMs Importam?
Thought Anchors: Which LLM Reasoning Steps Matter?
June 23, 2025
Autores: Paul C. Bogdan, Uzay Macar, Neel Nanda, Arthur Conmy
cs.AI
Resumo
Modelos de linguagem de grande escala com capacidades de raciocínio recentemente alcançaram desempenho de ponta em diversos campos. No entanto, seu raciocínio em cadeia de pensamento de longa duração cria desafios de interpretabilidade, já que cada token gerado depende de todos os anteriores, tornando a computação mais difícil de decompor. Argumentamos que a análise de traços de raciocínio no nível da frase é uma abordagem promissora para compreender os processos de raciocínio. Apresentamos três métodos complementares de atribuição: (1) um método de caixa preta que mede a importância contrafactual de cada frase comparando respostas finais em 100 execuções condicionadas ao modelo gerar essa frase ou uma com significado diferente; (2) um método de caixa branca que agrega padrões de atenção entre pares de frases, identificando frases de "transmissão" que recebem atenção desproporcional de todas as frases futuras por meio de cabeças de atenção "receptoras"; (3) um método de atribuição causal que mede conexões lógicas entre frases ao suprimir a atenção em direção a uma frase e medir o efeito nos tokens de cada frase futura. Cada método fornece evidências da existência de âncoras de pensamento, etapas de raciocínio que têm importância excepcional e influenciam desproporcionalmente o processo de raciocínio subsequente. Essas âncoras de pensamento são tipicamente frases de planejamento ou retrocesso. Disponibilizamos uma ferramenta de código aberto (www.thought-anchors.com) para visualizar as saídas de nossos métodos e apresentamos um estudo de caso mostrando padrões convergentes entre os métodos que mapeiam como um modelo realiza raciocínio em múltiplas etapas. A consistência entre os métodos demonstra o potencial da análise no nível da frase para uma compreensão mais profunda dos modelos de raciocínio.
English
Reasoning large language models have recently achieved state-of-the-art
performance in many fields. However, their long-form chain-of-thought reasoning
creates interpretability challenges as each generated token depends on all
previous ones, making the computation harder to decompose. We argue that
analyzing reasoning traces at the sentence level is a promising approach to
understanding reasoning processes. We present three complementary attribution
methods: (1) a black-box method measuring each sentence's counterfactual
importance by comparing final answers across 100 rollouts conditioned on the
model generating that sentence or one with a different meaning; (2) a white-box
method of aggregating attention patterns between pairs of sentences, which
identified ``broadcasting'' sentences that receive disproportionate attention
from all future sentences via ``receiver'' attention heads; (3) a causal
attribution method measuring logical connections between sentences by
suppressing attention toward one sentence and measuring the effect on each
future sentence's tokens. Each method provides evidence for the existence of
thought anchors, reasoning steps that have outsized importance and that
disproportionately influence the subsequent reasoning process. These thought
anchors are typically planning or backtracking sentences. We provide an
open-source tool (www.thought-anchors.com) for visualizing the outputs of our
methods, and present a case study showing converging patterns across methods
that map how a model performs multi-step reasoning. The consistency across
methods demonstrates the potential of sentence-level analysis for a deeper
understanding of reasoning models.