ChatPaper.aiChatPaper

Nenhum Prompt Deixado para Trás: Explorando Prompts de Variância Zero no Aprendizado por Reforço de LLM via Moldagem de Vantagem Guiada por Entropia

No Prompt Left Behind: Exploiting Zero-Variance Prompts in LLM Reinforcement Learning via Entropy-Guided Advantage Shaping

September 26, 2025
Autores: Thanh-Long V. Le, Myeongho Jeon, Kim Vu, Viet Lai, Eunho Yang
cs.AI

Resumo

O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) é uma estrutura poderosa para aprimorar as habilidades de raciocínio de Modelos de Linguagem de Grande Escala (LLMs). No entanto, métodos atuais como o GRPO dependem apenas de problemas em que as respostas do modelo para a mesma entrada diferem em correção, ignorando aqueles em que todas as respostas recebem a mesma recompensa — os chamados prompts de variância zero. Neste trabalho, argumentamos que esses prompts não são inúteis, mas podem, de fato, fornecer feedback significativo para a otimização de políticas. Para isso, introduzimos o Aprendizado por Reforço com Prompts de Variância Zero (RL-ZVP), um algoritmo inovador que extrai sinais de aprendizado de prompts de variância zero. O RL-ZVP recompensa diretamente a correção e penaliza erros mesmo sem respostas contrastantes, modulando o feedback com características em nível de token para preservar sinais informativos e detalhados. Em seis benchmarks de raciocínio matemático, o RL-ZVP alcança melhorias significativas de até 8,61 pontos em precisão e 7,77 pontos em taxa de acerto em relação ao GRPO, superando consistentemente outras abordagens que filtram prompts de variância zero. Esses resultados destacam o potencial inexplorado de aprender com prompts de variância zero no RLVR.
English
Reinforcement Learning with Verifiable Rewards (RLVR) is a powerful framework for improving the reasoning abilities of Large Language Models (LLMs). However, current methods such as GRPO rely only on problems where the model responses to the same input differ in correctness, while ignoring those where all responses receive the same reward - so-called zero-variance prompts. In this work, we argue that such prompts are not useless but can, in fact, provide meaningful feedback for policy optimization. To this end, we introduce RL with Zero-Variance Prompts (RL-ZVP), a novel algorithm that extract learning signals from zero-variance prompts. RL-ZVP directly rewards correctness and penalizes errors even without contrasting responses, modulating feedback with token-level characteristics to preserve informative, nuanced signals. Across six math reasoning benchmarks, RL-ZVP achieves significant improvements of up to 8.61 points in accuracy and 7.77 points in pass rate over GRPO, while consistently outperforming other baselines that filter out zero-variance prompts. These results highlight the untapped potential of learning from zero-variance prompts in RLVR.
PDF443September 29, 2025