Мыслительные искры!: Возникающие головы внимания в моделях рассуждений в процессе посттренинга
Thinking Sparks!: Emergent Attention Heads in Reasoning Models During Post Training
September 30, 2025
Авторы: Yein Park, Minbyul Jeong, Jaewoo Kang
cs.AI
Аннотация
Замечательные способности современных крупных моделей рассуждений в значительной степени раскрываются благодаря посттренировочным техникам, таким как контролируемая тонкая настройка и обучение с подкреплением. Однако архитектурные механизмы, лежащие в основе таких улучшений, остаются в основном неясными. В данной работе мы используем анализ схем, чтобы продемонстрировать, что посттренировка для сложных рассуждений стимулирует появление новых, функционально специализированных голов внимания. Эти головы коллективно поддерживают структурированные рассуждения и вычисления. Наш сравнительный анализ семейств моделей Qwen и модели DeepSeek-distilled показывает, что эти возникающие головы развиваются по-разному в зависимости от различных режимов обучения. Дистилляция и контролируемая тонкая настройка способствуют кумулятивному добавлению стабильных голов рассуждений. В отличие от этого, групповая относительная оптимизация политики работает в динамическом режиме поиска: относительно небольшое количество голов внимания итеративно активируется, оценивается и отсекается, причем их выживание тесно связано с колебаниями сигнала награды задачи. Кроме того, мы обнаруживаем, что управляемые модели с возможностью включения/выключения мышления не обладают выделенными головами для мышления. Вместо этого, отключение явных рассуждений активирует более широкий, но менее эффективный набор компенсаторных голов. С помощью абляционного и качественного анализа мы связываем эти динамики на уровне схем с ключевым компромиссом в производительности: усиленные головы позволяют применять сложные стратегии решения трудных задач, но также могут приводить к режимам сбоя из-за чрезмерного мышления, таким как ошибки в вычислениях или логические циклы на более простых задачах. Эти результаты связывают динамику на уровне схем с макроуровневой производительностью, выявляя внутреннее противоречие, при котором сложные рассуждения достигаются за счет элементарных вычислений. В более широком смысле наша работа указывает на будущие направления проектирования политик обучения, подчеркивая необходимость баланса между разработкой эффективных стратегий рассуждений и обеспечением надежного, безошибочного выполнения.
English
The remarkable capabilities of modern large reasoning models are largely
unlocked through post-training techniques such as supervised fine-tuning and
reinforcement learning. However, the architectural mechanisms behind such
improvements remain largely opaque. In this work, we use circuit analysis to
demonstrate that post-training for complex reasoning sparks the emergence of
novel, functionally specialized attention heads. These heads collectively
support structured reasoning and computation. Our comparative analysis across
Qwen families and DeepSeek-distilled model reveals that these emergent heads
evolve differently under different training regimes. Distillation and SFT
foster a cumulative addition of stable reasoning heads. In contrast, group
relative policy optimization operates in a dynamic search mode: relatively few
attention heads are iteratively activated, evaluated, and pruned, with their
survival closely tracking fluctuations in the task reward signal. Furthermore,
we find that controllable think on/off models do not possess dedicated thinking
heads. Instead, turning off explicit reasoning triggers a broader-but less
efficient-set of compensatory heads. Through ablation and qualitative analyses,
we connect these circuit-level dynamics to a crucial performance trade-off:
strengthened heads enable sophisticated problem-solving strategies for
difficult problems but can also introduce over-thinking failure modes, such as
calculation errors or logical loops on simpler tasks. These findings connect
circuit-level dynamics to macro-level performance, identifying an inherent
tension where complex reasoning comes at the cost of elementary computations.
More broadly, our work points to future directions for training policy design,
emphasizing the need to balance the development of effective reasoning
strategies with the assurance of reliable, flawless execution.