ChatPaper.aiChatPaper

Denkfunken!: Emergente Aufmerksamkeitsköpfe in Reasoning-Modellen während des Post-Trainings

Thinking Sparks!: Emergent Attention Heads in Reasoning Models During Post Training

September 30, 2025
papers.authors: Yein Park, Minbyul Jeong, Jaewoo Kang
cs.AI

papers.abstract

Die bemerkenswerten Fähigkeiten moderner großer Reasoning-Modelle werden weitgehend durch Post-Training-Techniken wie überwachtes Feintuning und Reinforcement Learning freigesetzt. Die architektonischen Mechanismen hinter diesen Verbesserungen bleiben jedoch weitgehend undurchsichtig. In dieser Arbeit verwenden wir Schaltkreisanalysen, um zu zeigen, dass Post-Training für komplexes Reasoning die Entstehung neuartiger, funktional spezialisierter Attention Heads auslöst. Diese Heads unterstützen gemeinsam strukturiertes Reasoning und Berechnungen. Unsere vergleichende Analyse über die Qwen-Familien und das DeepSeek-distillierte Modell zeigt, dass diese emergenten Heads unter verschiedenen Trainingsregimen unterschiedlich evolvieren. Destillation und SFT fördern eine kumulative Hinzufügung stabiler Reasoning-Heads. Im Gegensatz dazu arbeitet die gruppenrelative Policy-Optimierung in einem dynamischen Suchmodus: relativ wenige Attention Heads werden iterativ aktiviert, evaluiert und beschnitten, wobei ihr Überleben eng mit Schwankungen im Aufgabenbelohnungssignal verknüpft ist. Darüber hinaus stellen wir fest, dass kontrollierbare Think On/Off-Modelle keine dedizierten Thinking-Heads besitzen. Stattdessen löst das Abschalten expliziten Reasonings einen breiteren – aber weniger effizienten – Satz kompensatorischer Heads aus. Durch Ablations- und qualitative Analysen verbinden wir diese Schaltkreisdynamiken mit einem entscheidenden Leistungskompromiss: verstärkte Heads ermöglichen ausgefeilte Problemlösungsstrategien für schwierige Probleme, können aber auch Over-Thinking-Fehlermodi einführen, wie Berechnungsfehler oder logische Schleifen bei einfacheren Aufgaben. Diese Erkenntnisse verbinden Schaltkreisdynamiken mit der Makro-Leistung und identifizieren eine inhärente Spannung, bei der komplexes Reasoning auf Kosten elementarer Berechnungen geht. Im weiteren Sinne weist unsere Arbeit auf zukünftige Richtungen für das Design von Trainingsstrategien hin und betont die Notwendigkeit, die Entwicklung effektiver Reasoning-Strategien mit der Gewährleistung zuverlässiger, fehlerfreier Ausführung in Einklang zu bringen.
English
The remarkable capabilities of modern large reasoning models are largely unlocked through post-training techniques such as supervised fine-tuning and reinforcement learning. However, the architectural mechanisms behind such improvements remain largely opaque. In this work, we use circuit analysis to demonstrate that post-training for complex reasoning sparks the emergence of novel, functionally specialized attention heads. These heads collectively support structured reasoning and computation. Our comparative analysis across Qwen families and DeepSeek-distilled model reveals that these emergent heads evolve differently under different training regimes. Distillation and SFT foster a cumulative addition of stable reasoning heads. In contrast, group relative policy optimization operates in a dynamic search mode: relatively few attention heads are iteratively activated, evaluated, and pruned, with their survival closely tracking fluctuations in the task reward signal. Furthermore, we find that controllable think on/off models do not possess dedicated thinking heads. Instead, turning off explicit reasoning triggers a broader-but less efficient-set of compensatory heads. Through ablation and qualitative analyses, we connect these circuit-level dynamics to a crucial performance trade-off: strengthened heads enable sophisticated problem-solving strategies for difficult problems but can also introduce over-thinking failure modes, such as calculation errors or logical loops on simpler tasks. These findings connect circuit-level dynamics to macro-level performance, identifying an inherent tension where complex reasoning comes at the cost of elementary computations. More broadly, our work points to future directions for training policy design, emphasizing the need to balance the development of effective reasoning strategies with the assurance of reliable, flawless execution.
PDF151October 1, 2025