Denkankers: Welke redeneerstappen van grote taalmodellen zijn van belang?
Thought Anchors: Which LLM Reasoning Steps Matter?
June 23, 2025
Auteurs: Paul C. Bogdan, Uzay Macar, Neel Nanda, Arthur Conmy
cs.AI
Samenvatting
Redenerende grote taalmodellen hebben recentelijk state-of-the-art prestaties behaald in vele domeinen. Hun langere keten-van-gedachten-redeneringen brengen echter uitdagingen met zich mee op het gebied van interpreteerbaarheid, aangezien elk gegenereerd token afhankelijk is van alle voorgaande tokens, wat de berekening moeilijker maakt om te ontleden. Wij stellen dat het analyseren van redeneersporen op zinsniveau een veelbelovende aanpak is om redeneerprocessen te begrijpen. We presenteren drie complementaire attributiemethoden: (1) een black-box methode die het contrafeitelijke belang van elke zin meet door de uiteindelijke antwoorden te vergelijken over 100 rollouts, waarbij de voorwaarde is dat het model die zin genereert of een zin met een andere betekenis; (2) een white-box methode die aandachtspatronen tussen paren van zinnen aggregeert, waarbij "broadcasting"-zinnen worden geïdentificeerd die onevenredig veel aandacht krijgen van alle toekomstige zinnen via "receiver"-aandachtskoppen; (3) een causale attributiemethode die logische verbanden tussen zinnen meet door de aandacht naar één zin te onderdrukken en het effect op de tokens van elke toekomstige zin te meten. Elke methode levert bewijs voor het bestaan van gedachteankers, redeneerstappen die een buitensporig groot belang hebben en die het verdere redeneerproces onevenredig beïnvloeden. Deze gedachteankers zijn typisch plannings- of terugtrekkingszinnen. We bieden een open-source tool (www.thought-anchors.com) aan voor het visualiseren van de uitkomsten van onze methoden, en presenteren een casestudy die convergerende patronen tussen methoden laat zien die in kaart brengen hoe een model meerstapsredeneringen uitvoert. De consistentie tussen de methoden toont het potentieel aan van zinsniveau-analyse voor een dieper begrip van redeneermodellen.
English
Reasoning large language models have recently achieved state-of-the-art
performance in many fields. However, their long-form chain-of-thought reasoning
creates interpretability challenges as each generated token depends on all
previous ones, making the computation harder to decompose. We argue that
analyzing reasoning traces at the sentence level is a promising approach to
understanding reasoning processes. We present three complementary attribution
methods: (1) a black-box method measuring each sentence's counterfactual
importance by comparing final answers across 100 rollouts conditioned on the
model generating that sentence or one with a different meaning; (2) a white-box
method of aggregating attention patterns between pairs of sentences, which
identified ``broadcasting'' sentences that receive disproportionate attention
from all future sentences via ``receiver'' attention heads; (3) a causal
attribution method measuring logical connections between sentences by
suppressing attention toward one sentence and measuring the effect on each
future sentence's tokens. Each method provides evidence for the existence of
thought anchors, reasoning steps that have outsized importance and that
disproportionately influence the subsequent reasoning process. These thought
anchors are typically planning or backtracking sentences. We provide an
open-source tool (www.thought-anchors.com) for visualizing the outputs of our
methods, and present a case study showing converging patterns across methods
that map how a model performs multi-step reasoning. The consistency across
methods demonstrates the potential of sentence-level analysis for a deeper
understanding of reasoning models.