ChatPaper.aiChatPaper

Thinking Sparks!: Capi di Attenzione Emergenti nei Modelli di Ragionamento Durante il Post-Addestramento

Thinking Sparks!: Emergent Attention Heads in Reasoning Models During Post Training

September 30, 2025
Autori: Yein Park, Minbyul Jeong, Jaewoo Kang
cs.AI

Abstract

Le straordinarie capacità dei moderni modelli di ragionamento su larga scala sono in gran parte sbloccate attraverso tecniche di post-addestramento come il fine-tuning supervisionato e l'apprendimento per rinforzo. Tuttavia, i meccanismi architetturali alla base di tali miglioramenti rimangono in gran parte opachi. In questo lavoro, utilizziamo l'analisi dei circuiti per dimostrare che il post-addestramento per il ragionamento complesso innesca l'emergere di nuove teste di attenzione funzionalmente specializzate. Queste teste supportano collettivamente il ragionamento strutturato e il calcolo. La nostra analisi comparativa tra le famiglie Qwen e il modello DeepSeek-distilled rivela che queste teste emergenti si evolvono in modo diverso sotto diversi regimi di addestramento. La distillazione e il fine-tuning supervisionato favoriscono un'aggiunta cumulativa di teste di ragionamento stabili. Al contrario, l'ottimizzazione relativa delle politiche di gruppo opera in una modalità di ricerca dinamica: relativamente poche teste di attenzione vengono attivate, valutate e potate in modo iterativo, con la loro sopravvivenza che segue da vicino le fluttuazioni del segnale di ricompensa del compito. Inoltre, scopriamo che i modelli controllabili con attivazione/disattivazione del pensiero non possiedono teste di pensiero dedicate. Invece, la disattivazione del ragionamento esplicito attiva un insieme più ampio, ma meno efficiente, di teste compensatorie. Attraverso analisi di ablazione e qualitative, colleghiamo queste dinamiche a livello di circuito a un cruciale compromesso di prestazioni: teste rafforzate abilitano strategie di problem-solving sofisticate per problemi difficili, ma possono anche introdurre modalità di fallimento da eccesso di pensiero, come errori di calcolo o loop logici su compiti più semplici. Questi risultati collegano le dinamiche a livello di circuito alle prestazioni a livello macro, identificando una tensione intrinseca in cui il ragionamento complesso avviene a scapito di calcoli elementari. Più in generale, il nostro lavoro indica future direzioni per la progettazione delle politiche di addestramento, sottolineando la necessità di bilanciare lo sviluppo di strategie di ragionamento efficaci con la garanzia di un'esecuzione affidabile e impeccabile.
English
The remarkable capabilities of modern large reasoning models are largely unlocked through post-training techniques such as supervised fine-tuning and reinforcement learning. However, the architectural mechanisms behind such improvements remain largely opaque. In this work, we use circuit analysis to demonstrate that post-training for complex reasoning sparks the emergence of novel, functionally specialized attention heads. These heads collectively support structured reasoning and computation. Our comparative analysis across Qwen families and DeepSeek-distilled model reveals that these emergent heads evolve differently under different training regimes. Distillation and SFT foster a cumulative addition of stable reasoning heads. In contrast, group relative policy optimization operates in a dynamic search mode: relatively few attention heads are iteratively activated, evaluated, and pruned, with their survival closely tracking fluctuations in the task reward signal. Furthermore, we find that controllable think on/off models do not possess dedicated thinking heads. Instead, turning off explicit reasoning triggers a broader-but less efficient-set of compensatory heads. Through ablation and qualitative analyses, we connect these circuit-level dynamics to a crucial performance trade-off: strengthened heads enable sophisticated problem-solving strategies for difficult problems but can also introduce over-thinking failure modes, such as calculation errors or logical loops on simpler tasks. These findings connect circuit-level dynamics to macro-level performance, identifying an inherent tension where complex reasoning comes at the cost of elementary computations. More broadly, our work points to future directions for training policy design, emphasizing the need to balance the development of effective reasoning strategies with the assurance of reliable, flawless execution.
PDF212October 1, 2025