ChatPaper.aiChatPaper

Ningún indicador dejado atrás: Explotación de indicadores de varianza cero en el aprendizaje por refuerzo de modelos de lenguaje mediante la configuración de ventajas guiada por entropía

No Prompt Left Behind: Exploiting Zero-Variance Prompts in LLM Reinforcement Learning via Entropy-Guided Advantage Shaping

September 26, 2025
Autores: Thanh-Long V. Le, Myeongho Jeon, Kim Vu, Viet Lai, Eunho Yang
cs.AI

Resumen

El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) es un marco poderoso para mejorar las capacidades de razonamiento de los Modelos de Lenguaje a Gran Escala (LLMs). Sin embargo, los métodos actuales, como GRPO, se basan únicamente en problemas donde las respuestas del modelo a la misma entrada difieren en su corrección, ignorando aquellos casos en los que todas las respuestas reciben la misma recompensa, conocidos como indicaciones de varianza cero. En este trabajo, argumentamos que tales indicaciones no son inútiles, sino que, de hecho, pueden proporcionar retroalimentación significativa para la optimización de políticas. Con este fin, presentamos el Aprendizaje por Refuerzo con Indicaciones de Varianza Cero (RL-ZVP), un algoritmo novedoso que extrae señales de aprendizaje de indicaciones de varianza cero. RL-ZVP recompensa directamente la corrección y penaliza los errores incluso sin contrastar respuestas, modulando la retroalimentación con características a nivel de token para preservar señales informativas y matizadas. En seis benchmarks de razonamiento matemático, RL-ZVP logra mejoras significativas de hasta 8.61 puntos en precisión y 7.77 puntos en tasa de acierto sobre GRPO, superando consistentemente otras líneas base que filtran las indicaciones de varianza cero. Estos resultados resaltan el potencial no explotado de aprender de indicaciones de varianza cero en RLVR.
English
Reinforcement Learning with Verifiable Rewards (RLVR) is a powerful framework for improving the reasoning abilities of Large Language Models (LLMs). However, current methods such as GRPO rely only on problems where the model responses to the same input differ in correctness, while ignoring those where all responses receive the same reward - so-called zero-variance prompts. In this work, we argue that such prompts are not useless but can, in fact, provide meaningful feedback for policy optimization. To this end, we introduce RL with Zero-Variance Prompts (RL-ZVP), a novel algorithm that extract learning signals from zero-variance prompts. RL-ZVP directly rewards correctness and penalizes errors even without contrasting responses, modulating feedback with token-level characteristics to preserve informative, nuanced signals. Across six math reasoning benchmarks, RL-ZVP achieves significant improvements of up to 8.61 points in accuracy and 7.77 points in pass rate over GRPO, while consistently outperforming other baselines that filter out zero-variance prompts. These results highlight the untapped potential of learning from zero-variance prompts in RLVR.
PDF302September 29, 2025