ChatPaper.aiChatPaper

Denkende vonken!: Opkomende aandachtskoppen in redeneermodellen tijdens post-training

Thinking Sparks!: Emergent Attention Heads in Reasoning Models During Post Training

September 30, 2025
Auteurs: Yein Park, Minbyul Jeong, Jaewoo Kang
cs.AI

Samenvatting

De opmerkelijke capaciteiten van moderne grote redeneermodellen worden grotendeels ontsloten door post-trainings technieken zoals supervised fine-tuning en reinforcement learning. De architectonische mechanismen achter dergelijke verbeteringen blijven echter grotendeels ondoorzichtig. In dit werk gebruiken we circuitanalyse om aan te tonen dat post-training voor complex redeneren de opkomst van nieuwe, functioneel gespecialiseerde aandachtskoppen stimuleert. Deze koppen ondersteunen gezamenlijk gestructureerd redeneren en berekeningen. Onze vergelijkende analyse over de Qwen-families en het DeepSeek-gedistilleerde model onthult dat deze opkomende koppen zich verschillend ontwikkelen onder verschillende trainingsregimes. Distillatie en SFT bevorderen een cumulatieve toevoeging van stabiele redeneerkoppen. Daarentegen opereert group relative policy optimization in een dynamische zoekmodus: relatief weinig aandachtskoppen worden iteratief geactiveerd, geëvalueerd en gesnoeid, waarbij hun overleving nauw samenhangt met fluctuaties in het taakbeloningssignaal. Bovendien ontdekken we dat beheersbare think on/off-modellen geen toegewijde denkkoppen bezitten. In plaats daarvan activeert het uitschakelen van expliciet redeneren een bredere – maar minder efficiënte – set van compenserende koppen. Door middel van ablatie en kwalitatieve analyses verbinden we deze circuitniveau-dynamiek aan een cruciaal prestatie-afweging: versterkte koppen maken geavanceerde probleemoplossingsstrategieën mogelijk voor moeilijke problemen, maar kunnen ook overdenk-faalmodi introduceren, zoals rekenfouten of logische lussen bij eenvoudigere taken. Deze bevindingen verbinden circuitniveau-dynamiek aan macroniveau-prestaties en identificeren een inherente spanning waarbij complex redeneren ten koste gaat van elementaire berekeningen. In bredere zin wijst ons werk op toekomstige richtingen voor het ontwerpen van trainingsbeleid, waarbij de nadruk ligt op het balanceren van de ontwikkeling van effectieve redeneerstrategieën met de zekerheid van betrouwbare, foutloze uitvoering.
English
The remarkable capabilities of modern large reasoning models are largely unlocked through post-training techniques such as supervised fine-tuning and reinforcement learning. However, the architectural mechanisms behind such improvements remain largely opaque. In this work, we use circuit analysis to demonstrate that post-training for complex reasoning sparks the emergence of novel, functionally specialized attention heads. These heads collectively support structured reasoning and computation. Our comparative analysis across Qwen families and DeepSeek-distilled model reveals that these emergent heads evolve differently under different training regimes. Distillation and SFT foster a cumulative addition of stable reasoning heads. In contrast, group relative policy optimization operates in a dynamic search mode: relatively few attention heads are iteratively activated, evaluated, and pruned, with their survival closely tracking fluctuations in the task reward signal. Furthermore, we find that controllable think on/off models do not possess dedicated thinking heads. Instead, turning off explicit reasoning triggers a broader-but less efficient-set of compensatory heads. Through ablation and qualitative analyses, we connect these circuit-level dynamics to a crucial performance trade-off: strengthened heads enable sophisticated problem-solving strategies for difficult problems but can also introduce over-thinking failure modes, such as calculation errors or logical loops on simpler tasks. These findings connect circuit-level dynamics to macro-level performance, identifying an inherent tension where complex reasoning comes at the cost of elementary computations. More broadly, our work points to future directions for training policy design, emphasizing the need to balance the development of effective reasoning strategies with the assurance of reliable, flawless execution.
PDF212October 1, 2025