Quantil-Vorteilsschätzung für entropiesicheres Schließen
Quantile Advantage Estimation for Entropy-Safe Reasoning
September 26, 2025
papers.authors: Junkang Wu, Kexin Huang, Jiancan Wu, An Zhang, Xiang Wang, Xiangnan He
cs.AI
papers.abstract
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) stärkt das logische Denken von LLMs, doch das Training oszilliert häufig zwischen {Entropiekollaps} und {Entropieexplosion}. Wir führen beide Risiken auf den Mittelwert-Baseline zurück, der im wertfreien RL (z.B. GRPO und DAPO) verwendet wird und negative Vorteilsproben unter Belohnungsausreißern unangemessen bestraft. Wir schlagen {Quantile Advantage Estimation} (QAE) vor, bei dem der Mittelwert durch einen gruppenweisen K-Quantil-Baseline ersetzt wird. QAE induziert ein responsbezogenes, zweiregimiges Gate: Bei schwierigen Anfragen (p <= 1 - K) verstärkt es seltene Erfolge, während es bei einfachen Anfragen (p > 1 - K) verbleibende Fehler anvisiert. Unter Updates erster Ordnung mit Softmax beweisen wir {zweiseitige Entropiesicherheit}, die untere und obere Grenzen für die Entropieänderung in einem Schritt liefert, um Explosionen zu begrenzen und Kollaps zu verhindern. Empirisch stabilisiert diese minimale Modifikation die Entropie, sparsifiziert die Kreditzuweisung (bei abgestimmtem K erhalten etwa 80 % der Antworten keinen Vorteil) und erzielt nachhaltige Pass@1-Gewinne bei Qwen3-8B/14B-Base über AIME 2024/2025 und AMC 2023. Diese Ergebnisse identifizieren das {Baseline-Design} – und nicht tokenbezogene Heuristiken – als den primären Mechanismus zur Skalierung von RLVR.
English
Reinforcement Learning with Verifiable Rewards (RLVR) strengthens LLM
reasoning, but training often oscillates between {entropy collapse} and
{entropy explosion}. We trace both hazards to the mean baseline used in
value-free RL (e.g., GRPO and DAPO), which improperly penalizes
negative-advantage samples under reward outliers. We propose {Quantile
Advantage Estimation} (QAE), replacing the mean with a group-wise K-quantile
baseline. QAE induces a response-level, two-regime gate: on hard queries (p <=
1 - K) it reinforces rare successes, while on easy queries (p > 1 - K) it
targets remaining failures. Under first-order softmax updates, we prove
{two-sided entropy safety}, giving lower and upper bounds on one-step entropy
change that curb explosion and prevent collapse. Empirically, this minimal
modification stabilizes entropy, sparsifies credit assignment (with tuned K,
roughly 80% of responses receive zero advantage), and yields sustained pass@1
gains on Qwen3-8B/14B-Base across AIME 2024/2025 and AMC 2023. These results
identify {baseline design} -- rather than token-level heuristics -- as the
primary mechanism for scaling RLVR.