Pensando em Faíscas!: Cabeças de Atenção Emergentes em Modelos de Raciocínio Durante o Pós-Treinamento
Thinking Sparks!: Emergent Attention Heads in Reasoning Models During Post Training
September 30, 2025
Autores: Yein Park, Minbyul Jeong, Jaewoo Kang
cs.AI
Resumo
As capacidades notáveis dos modelos modernos de raciocínio em grande escala são em grande parte desbloqueadas por meio de técnicas de pós-treinamento, como ajuste fino supervisionado e aprendizado por reforço. No entanto, os mecanismos arquitetônicos por trás dessas melhorias permanecem amplamente opacos. Neste trabalho, utilizamos análise de circuitos para demonstrar que o pós-treinamento para raciocínio complexo desencadeia o surgimento de cabeças de atenção novas e funcionalmente especializadas. Essas cabeças, coletivamente, suportam raciocínio e computação estruturados. Nossa análise comparativa entre as famílias Qwen e o modelo destilado DeepSeek revela que essas cabeças emergentes evoluem de maneira diferente sob diferentes regimes de treinamento. A destilação e o ajuste fino supervisionado promovem uma adição cumulativa de cabeças de raciocínio estáveis. Em contraste, a otimização de política relativa em grupo opera em um modo de busca dinâmica: relativamente poucas cabeças de atenção são iterativamente ativadas, avaliadas e podadas, com sua sobrevivência acompanhando de perto as flutuações no sinal de recompensa da tarefa. Além disso, descobrimos que modelos controláveis de ligar/desligar o pensamento não possuem cabeças de pensamento dedicadas. Em vez disso, desligar o raciocínio explícito aciona um conjunto mais amplo — porém menos eficiente — de cabeças compensatórias. Por meio de análises de ablação e qualitativas, conectamos essas dinâmicas em nível de circuito a uma troca crucial de desempenho: cabeças fortalecidas permitem estratégias sofisticadas de resolução de problemas para questões difíceis, mas também podem introduzir modos de falha por excesso de pensamento, como erros de cálculo ou loops lógicos em tarefas mais simples. Essas descobertas conectam dinâmicas em nível de circuito ao desempenho macro, identificando uma tensão inerente em que o raciocínio complexo vem ao custo de computações elementares. De forma mais ampla, nosso trabalho aponta para direções futuras no design de políticas de treinamento, enfatizando a necessidade de equilibrar o desenvolvimento de estratégias eficazes de raciocínio com a garantia de execução confiável e impecável.
English
The remarkable capabilities of modern large reasoning models are largely
unlocked through post-training techniques such as supervised fine-tuning and
reinforcement learning. However, the architectural mechanisms behind such
improvements remain largely opaque. In this work, we use circuit analysis to
demonstrate that post-training for complex reasoning sparks the emergence of
novel, functionally specialized attention heads. These heads collectively
support structured reasoning and computation. Our comparative analysis across
Qwen families and DeepSeek-distilled model reveals that these emergent heads
evolve differently under different training regimes. Distillation and SFT
foster a cumulative addition of stable reasoning heads. In contrast, group
relative policy optimization operates in a dynamic search mode: relatively few
attention heads are iteratively activated, evaluated, and pruned, with their
survival closely tracking fluctuations in the task reward signal. Furthermore,
we find that controllable think on/off models do not possess dedicated thinking
heads. Instead, turning off explicit reasoning triggers a broader-but less
efficient-set of compensatory heads. Through ablation and qualitative analyses,
we connect these circuit-level dynamics to a crucial performance trade-off:
strengthened heads enable sophisticated problem-solving strategies for
difficult problems but can also introduce over-thinking failure modes, such as
calculation errors or logical loops on simpler tasks. These findings connect
circuit-level dynamics to macro-level performance, identifying an inherent
tension where complex reasoning comes at the cost of elementary computations.
More broadly, our work points to future directions for training policy design,
emphasizing the need to balance the development of effective reasoning
strategies with the assurance of reliable, flawless execution.