ChatPaper.aiChatPaper

Étincelles de pensée ! Têtes d'attention émergentes dans les modèles de raisonnement lors de l'après-entraînement

Thinking Sparks!: Emergent Attention Heads in Reasoning Models During Post Training

September 30, 2025
papers.authors: Yein Park, Minbyul Jeong, Jaewoo Kang
cs.AI

papers.abstract

Les capacités remarquables des modèles modernes de raisonnement à grande échelle sont largement débloquées grâce à des techniques de post-entraînement telles que le fine-tuning supervisé et l'apprentissage par renforcement. Cependant, les mécanismes architecturaux derrière ces améliorations restent largement opaques. Dans ce travail, nous utilisons l'analyse de circuits pour démontrer que le post-entraînement pour le raisonnement complexe déclenche l'émergence de têtes d'attention nouvelles et fonctionnellement spécialisées. Ces têtes soutiennent collectivement un raisonnement et des calculs structurés. Notre analyse comparative à travers les familles de modèles Qwen et DeepSeek-distilled révèle que ces têtes émergentes évoluent différemment selon les régimes d'entraînement. La distillation et le fine-tuning supervisé favorisent une addition cumulative de têtes de raisonnement stables. En revanche, l'optimisation relative de politique par groupe fonctionne dans un mode de recherche dynamique : relativement peu de têtes d'attention sont activées, évaluées et élaguées de manière itérative, leur survie suivant de près les fluctuations du signal de récompense de la tâche. De plus, nous constatons que les modèles contrôlables avec activation/désactivation de la pensée ne possèdent pas de têtes de pensée dédiées. Au lieu de cela, la désactivation du raisonnement explicite déclenche un ensemble plus large - mais moins efficace - de têtes compensatoires. Grâce à des analyses d'ablation et qualitatives, nous relions ces dynamiques au niveau des circuits à un compromis crucial de performance : les têtes renforcées permettent des stratégies de résolution de problèmes sophistiquées pour des problèmes difficiles, mais peuvent également introduire des modes d'échec dus à une sur-réflexion, tels que des erreurs de calcul ou des boucles logiques sur des tâches plus simples. Ces résultats relient les dynamiques au niveau des circuits à la performance au niveau macro, identifiant une tension inhérente où le raisonnement complexe se fait au détriment des calculs élémentaires. Plus largement, notre travail oriente les futures directions pour la conception des politiques d'entraînement, en soulignant la nécessité d'équilibrer le développement de stratégies de raisonnement efficaces avec l'assurance d'une exécution fiable et sans faille.
English
The remarkable capabilities of modern large reasoning models are largely unlocked through post-training techniques such as supervised fine-tuning and reinforcement learning. However, the architectural mechanisms behind such improvements remain largely opaque. In this work, we use circuit analysis to demonstrate that post-training for complex reasoning sparks the emergence of novel, functionally specialized attention heads. These heads collectively support structured reasoning and computation. Our comparative analysis across Qwen families and DeepSeek-distilled model reveals that these emergent heads evolve differently under different training regimes. Distillation and SFT foster a cumulative addition of stable reasoning heads. In contrast, group relative policy optimization operates in a dynamic search mode: relatively few attention heads are iteratively activated, evaluated, and pruned, with their survival closely tracking fluctuations in the task reward signal. Furthermore, we find that controllable think on/off models do not possess dedicated thinking heads. Instead, turning off explicit reasoning triggers a broader-but less efficient-set of compensatory heads. Through ablation and qualitative analyses, we connect these circuit-level dynamics to a crucial performance trade-off: strengthened heads enable sophisticated problem-solving strategies for difficult problems but can also introduce over-thinking failure modes, such as calculation errors or logical loops on simpler tasks. These findings connect circuit-level dynamics to macro-level performance, identifying an inherent tension where complex reasoning comes at the cost of elementary computations. More broadly, our work points to future directions for training policy design, emphasizing the need to balance the development of effective reasoning strategies with the assurance of reliable, flawless execution.
PDF151October 1, 2025