ChatPaper.aiChatPaper

¡Chispas de pensamiento!: Cabezas de atención emergentes en modelos de razonamiento durante el entrenamiento posterior.

Thinking Sparks!: Emergent Attention Heads in Reasoning Models During Post Training

September 30, 2025
Autores: Yein Park, Minbyul Jeong, Jaewoo Kang
cs.AI

Resumen

Las capacidades notables de los modelos modernos de razonamiento a gran escala se desbloquean en gran medida mediante técnicas de posentrenamiento, como el ajuste fino supervisado y el aprendizaje por refuerzo. Sin embargo, los mecanismos arquitectónicos detrás de estas mejoras siguen siendo en gran medida opacos. En este trabajo, utilizamos análisis de circuitos para demostrar que el posentrenamiento para el razonamiento complejo impulsa la aparición de cabezas de atención funcionalmente especializadas y novedosas. Estas cabezas, en conjunto, respaldan el razonamiento estructurado y la computación. Nuestro análisis comparativo en las familias Qwen y el modelo destilado DeepSeek revela que estas cabezas emergentes evolucionan de manera diferente bajo distintos regímenes de entrenamiento. La destilación y el ajuste fino supervisado fomentan una adición acumulativa de cabezas de razonamiento estables. En contraste, la optimización de políticas relativas por grupo opera en un modo de búsqueda dinámico: relativamente pocas cabezas de atención se activan, evalúan y podan de manera iterativa, y su supervivencia sigue de cerca las fluctuaciones en la señal de recompensa de la tarea. Además, encontramos que los modelos controlables de encendido/apagado del pensamiento no poseen cabezas de pensamiento dedicadas. En su lugar, desactivar el razonamiento explícito desencadena un conjunto más amplio, pero menos eficiente, de cabezas compensatorias. A través de análisis de ablación y cualitativos, conectamos estas dinámicas a nivel de circuito con un intercambio crucial en el rendimiento: las cabezas fortalecidas permiten estrategias sofisticadas de resolución de problemas para tareas difíciles, pero también pueden introducir modos de fallo por sobrepensamiento, como errores de cálculo o bucles lógicos en tareas más simples. Estos hallazgos vinculan las dinámicas a nivel de circuito con el rendimiento a nivel macro, identificando una tensión inherente donde el razonamiento complejo tiene un costo en las computaciones elementales. En términos más amplios, nuestro trabajo apunta a futuras direcciones para el diseño de políticas de entrenamiento, enfatizando la necesidad de equilibrar el desarrollo de estrategias efectivas de razonamiento con la garantía de una ejecución confiable y sin errores.
English
The remarkable capabilities of modern large reasoning models are largely unlocked through post-training techniques such as supervised fine-tuning and reinforcement learning. However, the architectural mechanisms behind such improvements remain largely opaque. In this work, we use circuit analysis to demonstrate that post-training for complex reasoning sparks the emergence of novel, functionally specialized attention heads. These heads collectively support structured reasoning and computation. Our comparative analysis across Qwen families and DeepSeek-distilled model reveals that these emergent heads evolve differently under different training regimes. Distillation and SFT foster a cumulative addition of stable reasoning heads. In contrast, group relative policy optimization operates in a dynamic search mode: relatively few attention heads are iteratively activated, evaluated, and pruned, with their survival closely tracking fluctuations in the task reward signal. Furthermore, we find that controllable think on/off models do not possess dedicated thinking heads. Instead, turning off explicit reasoning triggers a broader-but less efficient-set of compensatory heads. Through ablation and qualitative analyses, we connect these circuit-level dynamics to a crucial performance trade-off: strengthened heads enable sophisticated problem-solving strategies for difficult problems but can also introduce over-thinking failure modes, such as calculation errors or logical loops on simpler tasks. These findings connect circuit-level dynamics to macro-level performance, identifying an inherent tension where complex reasoning comes at the cost of elementary computations. More broadly, our work points to future directions for training policy design, emphasizing the need to balance the development of effective reasoning strategies with the assurance of reliable, flawless execution.
PDF151October 1, 2025