Возникновение иерархического мышления в больших языковых моделях посредством обучения с подкреплением
Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning
September 3, 2025
Авторы: Haozhe Wang, Qixin Xu, Che Liu, Junhong Wu, Fangzhen Lin, Wenhu Chen
cs.AI
Аннотация
Обучение с подкреплением (Reinforcement Learning, RL) доказало свою высокую эффективность в улучшении сложных способностей к рассуждению у крупных языковых моделей (Large Language Models, LLMs), однако механизмы, лежащие в основе этого успеха, остаются в значительной степени неясными. Наш анализ показывает, что такие загадочные явления, как «моменты озарения», «масштабирование по длине» и динамика энтропии, не являются разрозненными событиями, а представляют собой признаки иерархии рассуждений, возникающей по аналогии с разделением высокоуровневого стратегического планирования и низкоуровневого процедурного выполнения в человеческом познании. Мы обнаруживаем убедительную двухфазную динамику: на начальном этапе модель ограничена процедурной корректностью и должна улучшать свои низкоуровневые навыки. Затем узкое место обучения решительно смещается, и прирост производительности начинает определяться исследованием и освоением высокоуровневого стратегического планирования. Это понимание выявляет ключевую неэффективность в преобладающих алгоритмах RL, таких как GRPO, которые применяют оптимизационное давление без учета контекста и размывают сигнал обучения на всех токенах. Для решения этой проблемы мы предлагаем алгоритм HIerarchy-Aware Credit Assignment (HICRA), который концентрирует усилия по оптимизации на токенах, имеющих наибольшее влияние на планирование. HICRA значительно превосходит сильные базовые методы, демонстрируя, что фокусировка на этом стратегическом узком месте является ключом к раскрытию продвинутых способностей к рассуждению. Кроме того, мы подтверждаем, что семантическая энтропия является более точным ориентиром для измерения стратегического исследования по сравнению с вводящими в заблуждение метриками, такими как энтропия на уровне токенов.
English
Reinforcement Learning (RL) has proven highly effective at enhancing the
complex reasoning abilities of Large Language Models (LLMs), yet underlying
mechanisms driving this success remain largely opaque. Our analysis reveals
that puzzling phenomena like ``aha moments", ``length-scaling'' and entropy
dynamics are not disparate occurrences but hallmarks of an emergent reasoning
hierarchy, akin to the separation of high-level strategic planning from
low-level procedural execution in human cognition. We uncover a compelling
two-phase dynamic: initially, a model is constrained by procedural correctness
and must improve its low-level skills. The learning bottleneck then decisively
shifts, with performance gains being driven by the exploration and mastery of
high-level strategic planning. This insight exposes a core inefficiency in
prevailing RL algorithms like GRPO, which apply optimization pressure
agnostically and dilute the learning signal across all tokens. To address this,
we propose HIerarchy-Aware Credit Assignment (HICRA), an algorithm that
concentrates optimization efforts on high-impact planning tokens. HICRA
significantly outperforms strong baselines, demonstrating that focusing on this
strategic bottleneck is key to unlocking advanced reasoning. Furthermore, we
validate semantic entropy as a superior compass for measuring strategic
exploration over misleading metrics such as token-level entropy.