ChatPaper.aiChatPaper

Gedankenanker: Welche Schritte im Denkprozess von LLMs sind entscheidend?

Thought Anchors: Which LLM Reasoning Steps Matter?

June 23, 2025
Autoren: Paul C. Bogdan, Uzay Macar, Neel Nanda, Arthur Conmy
cs.AI

Zusammenfassung

Große Sprachmodelle mit Fähigkeiten zum logischen Schlussfolgern haben in letzter Zeit in vielen Bereichen Spitzenleistungen erzielt. Ihre langen Ketten von Denkschritten (Chain-of-Thought Reasoning) stellen jedoch Herausforderungen für die Interpretierbarkeit dar, da jedes erzeugte Token von allen vorherigen abhängt, was die Zerlegung der Berechnungen erschwert. Wir argumentieren, dass die Analyse von Denkspuren auf Satzebene ein vielversprechender Ansatz zum Verständnis von Denkprozessen ist. Wir stellen drei komplementäre Attributionsmethoden vor: (1) eine Black-Box-Methode, die die kontrafaktische Bedeutung jedes Satzes misst, indem sie die endgültigen Antworten über 100 Durchläufe vergleicht, bei denen das Modell entweder diesen Satz oder einen mit anderer Bedeutung generiert; (2) eine White-Box-Methode, die Aufmerksamkeitsmuster zwischen Satzpaaren aggregiert und „Broadcasting“-Sätze identifiziert, die über „Empfänger“-Aufmerksamkeitsköpfe unverhältnismäßig viel Aufmerksamkeit von allen zukünftigen Sätzen erhalten; (3) eine kausale Attributionsmethode, die logische Verbindungen zwischen Sätzen misst, indem die Aufmerksamkeit gegenüber einem Satz unterdrückt und die Auswirkung auf die Tokens jedes zukünftigen Satzes gemessen wird. Jede Methode liefert Belege für die Existenz von „Denkankern“ (Thought Anchors), Denkschritten, die überragende Bedeutung haben und den nachfolgenden Denkprozess unverhältnismäßig stark beeinflussen. Diese Denkanker sind typischerweise Planungs- oder Rückverfolgungssätze. Wir stellen ein Open-Source-Tool (www.thought-anchors.com) zur Visualisierung der Ergebnisse unserer Methoden bereit und präsentieren eine Fallstudie, die konvergierende Muster über die Methoden hinweg zeigt, die abbilden, wie ein Modell mehrstufiges Schlussfolgern durchführt. Die Konsistenz über die Methoden hinweg demonstriert das Potenzial der Satzebenenanalyse für ein tieferes Verständnis von Denkmodellen.
English
Reasoning large language models have recently achieved state-of-the-art performance in many fields. However, their long-form chain-of-thought reasoning creates interpretability challenges as each generated token depends on all previous ones, making the computation harder to decompose. We argue that analyzing reasoning traces at the sentence level is a promising approach to understanding reasoning processes. We present three complementary attribution methods: (1) a black-box method measuring each sentence's counterfactual importance by comparing final answers across 100 rollouts conditioned on the model generating that sentence or one with a different meaning; (2) a white-box method of aggregating attention patterns between pairs of sentences, which identified ``broadcasting'' sentences that receive disproportionate attention from all future sentences via ``receiver'' attention heads; (3) a causal attribution method measuring logical connections between sentences by suppressing attention toward one sentence and measuring the effect on each future sentence's tokens. Each method provides evidence for the existence of thought anchors, reasoning steps that have outsized importance and that disproportionately influence the subsequent reasoning process. These thought anchors are typically planning or backtracking sentences. We provide an open-source tool (www.thought-anchors.com) for visualizing the outputs of our methods, and present a case study showing converging patterns across methods that map how a model performs multi-step reasoning. The consistency across methods demonstrates the potential of sentence-level analysis for a deeper understanding of reasoning models.
PDF91June 26, 2025