ChatPaper.aiChatPaper

Stima del Vantaggio Quantile per il Ragionamento Sicuro in Termini di Entropia

Quantile Advantage Estimation for Entropy-Safe Reasoning

September 26, 2025
Autori: Junkang Wu, Kexin Huang, Jiancan Wu, An Zhang, Xiang Wang, Xiangnan He
cs.AI

Abstract

Il Reinforcement Learning con Ricompense Verificabili (RLVR) potenzia il ragionamento dei modelli linguistici di grandi dimensioni (LLM), ma l'addestramento spesso oscilla tra il {collasso dell'entropia} e l'{esplosione dell'entropia}. Entrambi i rischi sono riconducibili alla baseline media utilizzata nel RL senza valore (ad esempio, GRPO e DAPO), che penalizza in modo improprio i campioni con vantaggio negativo in presenza di outlier nelle ricompense. Proponiamo la {Stima del Vantaggio Quantile} (QAE), che sostituisce la media con una baseline basata su K-quantili per gruppi. La QAE introduce un gate a due regimi a livello di risposta: sulle query difficili (p <= 1 - K) rinforza i successi rari, mentre su quelle facili (p > 1 - K) mira ai fallimenti rimanenti. Sotto aggiornamenti softmax del primo ordine, dimostriamo la {sicurezza dell'entropia bilaterale}, fornendo limiti inferiori e superiori sulla variazione dell'entropia in un singolo passo che frenano l'esplosione e prevengono il collasso. Empiricamente, questa modifica minima stabilizza l'entropia, rende più sparsa l'assegnazione del credito (con K ottimizzato, circa l'80% delle risposte riceve vantaggio zero) e produce guadagni sostenuti in pass@1 su Qwen3-8B/14B-Base attraverso AIME 2024/2025 e AMC 2023. Questi risultati identificano il {design della baseline} — piuttosto che euristiche a livello di token — come il meccanismo primario per scalare l'RLVR.
English
Reinforcement Learning with Verifiable Rewards (RLVR) strengthens LLM reasoning, but training often oscillates between {entropy collapse} and {entropy explosion}. We trace both hazards to the mean baseline used in value-free RL (e.g., GRPO and DAPO), which improperly penalizes negative-advantage samples under reward outliers. We propose {Quantile Advantage Estimation} (QAE), replacing the mean with a group-wise K-quantile baseline. QAE induces a response-level, two-regime gate: on hard queries (p <= 1 - K) it reinforces rare successes, while on easy queries (p > 1 - K) it targets remaining failures. Under first-order softmax updates, we prove {two-sided entropy safety}, giving lower and upper bounds on one-step entropy change that curb explosion and prevent collapse. Empirically, this minimal modification stabilizes entropy, sparsifies credit assignment (with tuned K, roughly 80% of responses receive zero advantage), and yields sustained pass@1 gains on Qwen3-8B/14B-Base across AIME 2024/2025 and AMC 2023. These results identify {baseline design} -- rather than token-level heuristics -- as the primary mechanism for scaling RLVR.
PDF1172September 29, 2025