Razonamiento jerárquico emergente en LLMs mediante aprendizaje por refuerzo
Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning
September 3, 2025
Autores: Haozhe Wang, Qixin Xu, Che Liu, Junhong Wu, Fangzhen Lin, Wenhu Chen
cs.AI
Resumen
El Aprendizaje por Refuerzo (RL, por sus siglas en inglés) ha demostrado ser altamente efectivo para mejorar las capacidades de razonamiento complejo de los Modelos de Lenguaje a Gran Escala (LLMs), aunque los mecanismos subyacentes que impulsan este éxito siguen siendo en gran medida opacos. Nuestro análisis revela que fenómenos desconcertantes como los "momentos de revelación", el "escalado por longitud" y la dinámica de la entropía no son ocurrencias aisladas, sino características distintivas de una jerarquía de razonamiento emergente, similar a la separación entre la planificación estratégica de alto nivel y la ejecución procedimental de bajo nivel en la cognición humana. Descubrimos una dinámica convincente en dos fases: inicialmente, un modelo está limitado por la corrección procedimental y debe mejorar sus habilidades de bajo nivel. Luego, el cuello de botella del aprendizaje cambia decisivamente, y las mejoras en el rendimiento son impulsadas por la exploración y el dominio de la planificación estratégica de alto nivel. Esta percepción expone una ineficiencia central en los algoritmos de RL predominantes, como GRPO, que aplican presión de optimización de manera agnóstica y diluyen la señal de aprendizaje en todos los tokens. Para abordar esto, proponemos HIerarchy-Aware Credit Assignment (HICRA), un algoritmo que concentra los esfuerzos de optimización en los tokens de planificación de alto impacto. HICRA supera significativamente a los baselines fuertes, demostrando que enfocarse en este cuello de botella estratégico es clave para desbloquear un razonamiento avanzado. Además, validamos la entropía semántica como una brújula superior para medir la exploración estratégica, en comparación con métricas engañosas como la entropía a nivel de token.
English
Reinforcement Learning (RL) has proven highly effective at enhancing the
complex reasoning abilities of Large Language Models (LLMs), yet underlying
mechanisms driving this success remain largely opaque. Our analysis reveals
that puzzling phenomena like ``aha moments", ``length-scaling'' and entropy
dynamics are not disparate occurrences but hallmarks of an emergent reasoning
hierarchy, akin to the separation of high-level strategic planning from
low-level procedural execution in human cognition. We uncover a compelling
two-phase dynamic: initially, a model is constrained by procedural correctness
and must improve its low-level skills. The learning bottleneck then decisively
shifts, with performance gains being driven by the exploration and mastery of
high-level strategic planning. This insight exposes a core inefficiency in
prevailing RL algorithms like GRPO, which apply optimization pressure
agnostically and dilute the learning signal across all tokens. To address this,
we propose HIerarchy-Aware Credit Assignment (HICRA), an algorithm that
concentrates optimization efforts on high-impact planning tokens. HICRA
significantly outperforms strong baselines, demonstrating that focusing on this
strategic bottleneck is key to unlocking advanced reasoning. Furthermore, we
validate semantic entropy as a superior compass for measuring strategic
exploration over misleading metrics such as token-level entropy.