Nenhum Prompt Deixado para Trás: Explorando Prompts de Variância Zero no Aprendizado por Reforço de LLM via Moldagem de Vantagem Guiada por Entropia
No Prompt Left Behind: Exploiting Zero-Variance Prompts in LLM Reinforcement Learning via Entropy-Guided Advantage Shaping
September 26, 2025
Autores: Thanh-Long V. Le, Myeongho Jeon, Kim Vu, Viet Lai, Eunho Yang
cs.AI
Resumo
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) é uma estrutura poderosa para aprimorar as habilidades de raciocínio de Modelos de Linguagem de Grande Escala (LLMs). No entanto, métodos atuais como o GRPO dependem apenas de problemas em que as respostas do modelo para a mesma entrada diferem em correção, ignorando aqueles em que todas as respostas recebem a mesma recompensa — os chamados prompts de variância zero. Neste trabalho, argumentamos que esses prompts não são inúteis, mas podem, de fato, fornecer feedback significativo para a otimização de políticas. Para isso, introduzimos o Aprendizado por Reforço com Prompts de Variância Zero (RL-ZVP), um algoritmo inovador que extrai sinais de aprendizado de prompts de variância zero. O RL-ZVP recompensa diretamente a correção e penaliza erros mesmo sem respostas contrastantes, modulando o feedback com características em nível de token para preservar sinais informativos e detalhados. Em seis benchmarks de raciocínio matemático, o RL-ZVP alcança melhorias significativas de até 8,61 pontos em precisão e 7,77 pontos em taxa de acerto em relação ao GRPO, superando consistentemente outras abordagens que filtram prompts de variância zero. Esses resultados destacam o potencial inexplorado de aprender com prompts de variância zero no RLVR.
English
Reinforcement Learning with Verifiable Rewards (RLVR) is a powerful framework
for improving the reasoning abilities of Large Language Models (LLMs). However,
current methods such as GRPO rely only on problems where the model responses to
the same input differ in correctness, while ignoring those where all responses
receive the same reward - so-called zero-variance prompts. In this work, we
argue that such prompts are not useless but can, in fact, provide meaningful
feedback for policy optimization. To this end, we introduce RL with
Zero-Variance Prompts (RL-ZVP), a novel algorithm that extract learning signals
from zero-variance prompts. RL-ZVP directly rewards correctness and penalizes
errors even without contrasting responses, modulating feedback with token-level
characteristics to preserve informative, nuanced signals. Across six math
reasoning benchmarks, RL-ZVP achieves significant improvements of up to 8.61
points in accuracy and 7.77 points in pass rate over GRPO, while consistently
outperforming other baselines that filter out zero-variance prompts. These
results highlight the untapped potential of learning from zero-variance prompts
in RLVR.