ChatPaper.aiChatPaper

Kwantiel Voordeelschatting voor Entropie-Veilig Redeneren

Quantile Advantage Estimation for Entropy-Safe Reasoning

September 26, 2025
Auteurs: Junkang Wu, Kexin Huang, Jiancan Wu, An Zhang, Xiang Wang, Xiangnan He
cs.AI

Samenvatting

Reinforcement Learning met Verifieerbare Beloningen (RLVR) versterkt het redeneervermogen van LLM's, maar de training oscilleert vaak tussen {entropie-instorting} en {entropie-explosie}. We herleiden beide risico's naar de gemiddelde basislijn die wordt gebruikt in waardevrije RL (bijv. GRPO en DAPO), die negatieve-voordeelmonsters onterecht bestraft onder beloningsuitbijters. We stellen {Kwantiel Voordeelschatting} (QAE) voor, waarbij het gemiddelde wordt vervangen door een groepswijze K-kwantiel basislijn. QAE introduceert een responsniveau, twee-regime poort: op moeilijke vragen (p <= 1 - K) versterkt het zeldzame successen, terwijl het op eenvoudige vragen (p > 1 - K) de resterende mislukkingen aanpakt. Onder eerste-orde softmax-updates bewijzen we {tweezijdige entropie-veiligheid}, wat onder- en bovengrenzen geeft op de entropieverandering in één stap die explosie beteugelen en instorting voorkomen. Empirisch gezien stabiliseert deze minimale aanpassing de entropie, verspreidt het de krediettoewijzing (met afgestemde K, ontvangt ongeveer 80% van de reacties nul voordeel), en levert het aanhoudende pass@1-winsten op voor Qwen3-8B/14B-Base over AIME 2024/2025 en AMC 2023. Deze resultaten identificeren {basislijnontwerp} -- in plaats van tokenniveau heuristieken -- als het primaire mechanisme voor het schalen van RLVR.
English
Reinforcement Learning with Verifiable Rewards (RLVR) strengthens LLM reasoning, but training often oscillates between {entropy collapse} and {entropy explosion}. We trace both hazards to the mean baseline used in value-free RL (e.g., GRPO and DAPO), which improperly penalizes negative-advantage samples under reward outliers. We propose {Quantile Advantage Estimation} (QAE), replacing the mean with a group-wise K-quantile baseline. QAE induces a response-level, two-regime gate: on hard queries (p <= 1 - K) it reinforces rare successes, while on easy queries (p > 1 - K) it targets remaining failures. Under first-order softmax updates, we prove {two-sided entropy safety}, giving lower and upper bounds on one-step entropy change that curb explosion and prevent collapse. Empirically, this minimal modification stabilizes entropy, sparsifies credit assignment (with tuned K, roughly 80% of responses receive zero advantage), and yields sustained pass@1 gains on Qwen3-8B/14B-Base across AIME 2024/2025 and AMC 2023. These results identify {baseline design} -- rather than token-level heuristics -- as the primary mechanism for scaling RLVR.
PDF1172September 29, 2025