Nessun Prompt Lasciato Indietro: Sfruttare Prompt a Varianza Zero nel Rinforzo degli LLM tramite Modellazione del Vantaggio Guidata dall'Entropia
No Prompt Left Behind: Exploiting Zero-Variance Prompts in LLM Reinforcement Learning via Entropy-Guided Advantage Shaping
September 26, 2025
Autori: Thanh-Long V. Le, Myeongho Jeon, Kim Vu, Viet Lai, Eunho Yang
cs.AI
Abstract
Il Reinforcement Learning con Ricompense Verificabili (RLVR) è un potente framework per migliorare le capacità di ragionamento dei Modelli Linguistici di Grande Scala (LLMs). Tuttavia, i metodi attuali come GRPO si basano esclusivamente su problemi in cui le risposte del modello allo stesso input differiscono in correttezza, ignorando quelli in cui tutte le risposte ricevono la stessa ricompensa, i cosiddetti prompt a varianza zero. In questo lavoro, sosteniamo che tali prompt non sono inutili ma possono, in realtà, fornire un feedback significativo per l'ottimizzazione delle politiche. A tal fine, introduciamo il Reinforcement Learning con Prompt a Varianza Zero (RL-ZVP), un nuovo algoritmo che estrae segnali di apprendimento da prompt a varianza zero. RL-ZVP ricompensa direttamente la correttezza e penalizza gli errori anche senza risposte contrastanti, modulando il feedback con caratteristiche a livello di token per preservare segnali informativi e sfumati. Su sei benchmark di ragionamento matematico, RL-ZVP ottiene miglioramenti significativi fino a 8,61 punti in accuratezza e 7,77 punti nel tasso di superamento rispetto a GRPO, superando costantemente altri metodi di base che filtrano i prompt a varianza zero. Questi risultati evidenziano il potenziale inesplorato dell'apprendimento da prompt a varianza zero in RLVR.
English
Reinforcement Learning with Verifiable Rewards (RLVR) is a powerful framework
for improving the reasoning abilities of Large Language Models (LLMs). However,
current methods such as GRPO rely only on problems where the model responses to
the same input differ in correctness, while ignoring those where all responses
receive the same reward - so-called zero-variance prompts. In this work, we
argue that such prompts are not useless but can, in fact, provide meaningful
feedback for policy optimization. To this end, we introduce RL with
Zero-Variance Prompts (RL-ZVP), a novel algorithm that extract learning signals
from zero-variance prompts. RL-ZVP directly rewards correctness and penalizes
errors even without contrasting responses, modulating feedback with token-level
characteristics to preserve informative, nuanced signals. Across six math
reasoning benchmarks, RL-ZVP achieves significant improvements of up to 8.61
points in accuracy and 7.77 points in pass rate over GRPO, while consistently
outperforming other baselines that filter out zero-variance prompts. These
results highlight the untapped potential of learning from zero-variance prompts
in RLVR.