Thinking Sparks!: Capi di Attenzione Emergenti nei Modelli di Ragionamento Durante il Post-Addestramento
Thinking Sparks!: Emergent Attention Heads in Reasoning Models During Post Training
September 30, 2025
Autori: Yein Park, Minbyul Jeong, Jaewoo Kang
cs.AI
Abstract
Le straordinarie capacità dei moderni modelli di ragionamento su larga scala sono in gran parte sbloccate attraverso tecniche di post-addestramento come il fine-tuning supervisionato e l'apprendimento per rinforzo. Tuttavia, i meccanismi architetturali alla base di tali miglioramenti rimangono in gran parte opachi. In questo lavoro, utilizziamo l'analisi dei circuiti per dimostrare che il post-addestramento per il ragionamento complesso innesca l'emergere di nuove teste di attenzione funzionalmente specializzate. Queste teste supportano collettivamente il ragionamento strutturato e il calcolo. La nostra analisi comparativa tra le famiglie Qwen e il modello DeepSeek-distilled rivela che queste teste emergenti si evolvono in modo diverso sotto diversi regimi di addestramento. La distillazione e il fine-tuning supervisionato favoriscono un'aggiunta cumulativa di teste di ragionamento stabili. Al contrario, l'ottimizzazione relativa delle politiche di gruppo opera in una modalità di ricerca dinamica: relativamente poche teste di attenzione vengono attivate, valutate e potate in modo iterativo, con la loro sopravvivenza che segue da vicino le fluttuazioni del segnale di ricompensa del compito. Inoltre, scopriamo che i modelli controllabili con attivazione/disattivazione del pensiero non possiedono teste di pensiero dedicate. Invece, la disattivazione del ragionamento esplicito attiva un insieme più ampio, ma meno efficiente, di teste compensatorie. Attraverso analisi di ablazione e qualitative, colleghiamo queste dinamiche a livello di circuito a un cruciale compromesso di prestazioni: teste rafforzate abilitano strategie di problem-solving sofisticate per problemi difficili, ma possono anche introdurre modalità di fallimento da eccesso di pensiero, come errori di calcolo o loop logici su compiti più semplici. Questi risultati collegano le dinamiche a livello di circuito alle prestazioni a livello macro, identificando una tensione intrinseca in cui il ragionamento complesso avviene a scapito di calcoli elementari. Più in generale, il nostro lavoro indica future direzioni per la progettazione delle politiche di addestramento, sottolineando la necessità di bilanciare lo sviluppo di strategie di ragionamento efficaci con la garanzia di un'esecuzione affidabile e impeccabile.
English
The remarkable capabilities of modern large reasoning models are largely
unlocked through post-training techniques such as supervised fine-tuning and
reinforcement learning. However, the architectural mechanisms behind such
improvements remain largely opaque. In this work, we use circuit analysis to
demonstrate that post-training for complex reasoning sparks the emergence of
novel, functionally specialized attention heads. These heads collectively
support structured reasoning and computation. Our comparative analysis across
Qwen families and DeepSeek-distilled model reveals that these emergent heads
evolve differently under different training regimes. Distillation and SFT
foster a cumulative addition of stable reasoning heads. In contrast, group
relative policy optimization operates in a dynamic search mode: relatively few
attention heads are iteratively activated, evaluated, and pruned, with their
survival closely tracking fluctuations in the task reward signal. Furthermore,
we find that controllable think on/off models do not possess dedicated thinking
heads. Instead, turning off explicit reasoning triggers a broader-but less
efficient-set of compensatory heads. Through ablation and qualitative analyses,
we connect these circuit-level dynamics to a crucial performance trade-off:
strengthened heads enable sophisticated problem-solving strategies for
difficult problems but can also introduce over-thinking failure modes, such as
calculation errors or logical loops on simpler tasks. These findings connect
circuit-level dynamics to macro-level performance, identifying an inherent
tension where complex reasoning comes at the cost of elementary computations.
More broadly, our work points to future directions for training policy design,
emphasizing the need to balance the development of effective reasoning
strategies with the assurance of reliable, flawless execution.