Más allá del dilema exploración-explotación: un enfoque de estados ocultos para el razonamiento de LLM en RLVR
Beyond the Exploration-Exploitation Trade-off: A Hidden State Approach for LLM Reasoning in RLVR
September 28, 2025
Autores: Fanding Huang, Guanbo Huang, Xiao Fan, Yi He, Xiao Liang, Xiao Chen, Qinting Jiang, Faisal Nadeem Khan, Jingyan Jiang, Zhi Wang
cs.AI
Resumen
Una visión predominante en el Aprendizaje por Refuerzo para Recompensas Verificables (RLVR) interpreta los avances recientes a través de la lente de un equilibrio entre exploración y explotación, una perspectiva en gran medida moldeada por métricas a nivel de tokens. Reexaminamos esta perspectiva, proponiendo que este equilibrio percibido podría no ser una restricción fundamental, sino más bien un artefacto del nivel de medición. Para investigar esto, trasladamos el análisis al espacio de estados ocultos semánticamente rico, adoptando el Rango Efectivo (ER) para cuantificar la exploración y proponiendo sus novedosas derivadas de primer y segundo orden, denominadas Velocidad del Rango Efectivo (ERV) y Aceleración del Rango Efectivo (ERA), para capturar las dinámicas de explotación. Nuestro análisis revela que, a nivel de estados ocultos, la exploración y la explotación podrían desacoplarse (Sección 4). Este hallazgo revela una oportunidad para mejorar ambas capacidades simultáneamente. Esta idea motiva nuestro método, Aprendizaje de Rango con Explotación de Velocidad (VERL), el primero en operacionalizar el principio de mejora sinérgica de exploración-explotación al moldear directamente la función de ventaja del RL. La innovación clave es aprovechar la ERA teóricamente estable como un meta-controlador predictivo para crear una estructura de incentivos sinérgica de doble canal. En lugar de forzar un equilibrio, VERL amplifica prospectivamente las recompensas para la exploración para prevenir la sobreconfianza y refuerza las ganancias explotativas para consolidar el razonamiento. Los experimentos en diversos LLM y benchmarks de razonamiento muestran mejoras consistentes, incluyendo un aumento de hasta el 21.4% en precisión absoluta en el desafiante conjunto de datos Gaokao 2024.
English
A prevailing view in Reinforcement Learning for Verifiable Rewards (RLVR)
interprets recent progress through the lens of an exploration-exploitation
trade-off, a perspective largely shaped by token-level metrics. We re-examine
this perspective, proposing that this perceived trade-off may not be a
fundamental constraint but rather an artifact of the measurement level. To
investigate this, we shift the analysis to the semantically rich hidden-state
space, adopting Effective Rank (ER) to quantify exploration and proposing its
novel first- and second-order derivatives, named Effective Rank Velocity (ERV)
and Effective Rank Acceleration (ERA), to capture exploitation dynamics. Our
analysis reveals that at the hidden-state level, exploration and exploitation
could be decoupled (Sec. 4). This finding reveals an opportunity to enhance
both capacities simultaneously. This insight motivates our method,
Velocity-Exploiting Rank-Learning (VERL), the first to operationalize the
principle of synergistic exploration-exploitation enhancement by directly
shaping the RL advantage function. The key innovation is leveraging the
theoretically stable ERA as a predictive meta-controller to create a
synergistic, dual-channel incentive structure. Instead of forcing a trade-off,
VERL prospectively amplifies rewards for exploration to preempt overconfidence
and reinforces exploitative gains to consolidate reasoning. Experiments across
diverse LLMs and reasoning benchmarks show consistent gains, including up to
21.4% absolute accuracy improvement on the challenging Gaokao 2024 dataset.