Estimación de Ventaja Cuantílica para el Razonamiento con Seguridad de Entropía
Quantile Advantage Estimation for Entropy-Safe Reasoning
September 26, 2025
Autores: Junkang Wu, Kexin Huang, Jiancan Wu, An Zhang, Xiang Wang, Xiangnan He
cs.AI
Resumen
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) fortalece el razonamiento de los modelos de lenguaje grandes (LLM), pero el entrenamiento a menudo oscila entre el {colapso de entropía} y la {explosión de entropía}. Rastreamos ambos riesgos hasta la línea base media utilizada en el RL sin valores (por ejemplo, GRPO y DAPO), que penaliza incorrectamente las muestras con ventaja negativa bajo valores atípicos de recompensa. Proponemos la {Estimación de Ventaja por Cuantiles} (QAE), que reemplaza la media con una línea base de K-cuantiles por grupos. QAE induce una puerta de dos regímenes a nivel de respuesta: en consultas difíciles (p <= 1 - K) refuerza los éxitos raros, mientras que en consultas fáciles (p > 1 - K) se enfoca en los fracasos restantes. Bajo actualizaciones de softmax de primer orden, demostramos la {seguridad de entropía bilateral}, proporcionando límites inferiores y superiores en el cambio de entropía de un paso que frenan la explosión y previenen el colapso. Empíricamente, esta modificación mínima estabiliza la entropía, esparsa la asignación de crédito (con K ajustado, aproximadamente el 80% de las respuestas reciben ventaja cero) y produce ganancias sostenidas en pass@1 en Qwen3-8B/14B-Base a través de AIME 2024/2025 y AMC 2023. Estos resultados identifican el {diseño de la línea base} —en lugar de heurísticas a nivel de token— como el mecanismo principal para escalar RLVR.
English
Reinforcement Learning with Verifiable Rewards (RLVR) strengthens LLM
reasoning, but training often oscillates between {entropy collapse} and
{entropy explosion}. We trace both hazards to the mean baseline used in
value-free RL (e.g., GRPO and DAPO), which improperly penalizes
negative-advantage samples under reward outliers. We propose {Quantile
Advantage Estimation} (QAE), replacing the mean with a group-wise K-quantile
baseline. QAE induces a response-level, two-regime gate: on hard queries (p <=
1 - K) it reinforces rare successes, while on easy queries (p > 1 - K) it
targets remaining failures. Under first-order softmax updates, we prove
{two-sided entropy safety}, giving lower and upper bounds on one-step entropy
change that curb explosion and prevent collapse. Empirically, this minimal
modification stabilizes entropy, sparsifies credit assignment (with tuned K,
roughly 80% of responses receive zero advantage), and yields sustained pass@1
gains on Qwen3-8B/14B-Base across AIME 2024/2025 and AMC 2023. These results
identify {baseline design} -- rather than token-level heuristics -- as the
primary mechanism for scaling RLVR.