Razonamiento jerárquico emergente en LLMs mediante aprendizaje por refuerzo

Resumen

El Aprendizaje por Refuerzo (RL, por sus siglas en inglés) ha demostrado ser altamente efectivo para mejorar las capacidades de razonamiento complejo de los Modelos de Lenguaje a Gran Escala (LLMs), aunque los mecanismos subyacentes que impulsan este éxito siguen siendo en gran medida opacos. Nuestro análisis revela que fenómenos desconcertantes como los "momentos de revelación", el "escalado por longitud" y la dinámica de la entropía no son ocurrencias aisladas, sino características distintivas de una jerarquía de razonamiento emergente, similar a la separación entre la planificación estratégica de alto nivel y la ejecución procedimental de bajo nivel en la cognición humana. Descubrimos una dinámica convincente en dos fases: inicialmente, un modelo está limitado por la corrección procedimental y debe mejorar sus habilidades de bajo nivel. Luego, el cuello de botella del aprendizaje cambia decisivamente, y las mejoras en el rendimiento son impulsadas por la exploración y el dominio de la planificación estratégica de alto nivel. Esta percepción expone una ineficiencia central en los algoritmos de RL predominantes, como GRPO, que aplican presión de optimización de manera agnóstica y diluyen la señal de aprendizaje en todos los tokens. Para abordar esto, proponemos HIerarchy-Aware Credit Assignment (HICRA), un algoritmo que concentra los esfuerzos de optimización en los tokens de planificación de alto impacto. HICRA supera significativamente a los baselines fuertes, demostrando que enfocarse en este cuello de botella estratégico es clave para desbloquear un razonamiento avanzado. Además, validamos la entropía semántica como una brújula superior para medir la exploración estratégica, en comparación con métricas engañosas como la entropía a nivel de token.

English

Reinforcement Learning (RL) has proven highly effective at enhancing the complex reasoning abilities of Large Language Models (LLMs), yet underlying mechanisms driving this success remain largely opaque. Our analysis reveals that puzzling phenomena like ``aha moments", ``length-scaling'' and entropy dynamics are not disparate occurrences but hallmarks of an emergent reasoning hierarchy, akin to the separation of high-level strategic planning from low-level procedural execution in human cognition. We uncover a compelling two-phase dynamic: initially, a model is constrained by procedural correctness and must improve its low-level skills. The learning bottleneck then decisively shifts, with performance gains being driven by the exploration and mastery of high-level strategic planning. This insight exposes a core inefficiency in prevailing RL algorithms like GRPO, which apply optimization pressure agnostically and dilute the learning signal across all tokens. To address this, we propose HIerarchy-Aware Credit Assignment (HICRA), an algorithm that concentrates optimization efforts on high-impact planning tokens. HICRA significantly outperforms strong baselines, demonstrating that focusing on this strategic bottleneck is key to unlocking advanced reasoning. Furthermore, we validate semantic entropy as a superior compass for measuring strategic exploration over misleading metrics such as token-level entropy.

Razonamiento jerárquico emergente en LLMs mediante aprendizaje por refuerzo

Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning

Resumen

Support