Estimation de l'Avantage Quantile pour un Raisonnement à Entropie Contrôlée
Quantile Advantage Estimation for Entropy-Safe Reasoning
September 26, 2025
papers.authors: Junkang Wu, Kexin Huang, Jiancan Wu, An Zhang, Xiang Wang, Xiangnan He
cs.AI
papers.abstract
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) renforce le raisonnement des LLM, mais l'entraînement oscille souvent entre un {effondrement de l'entropie} et une {explosion de l'entropie}. Nous attribuons ces deux risques à la ligne de base moyenne utilisée dans le RL sans valeur (par exemple, GRPO et DAPO), qui pénalise de manière inappropriée les échantillons à avantage négatif en présence de valeurs aberrantes de récompense. Nous proposons l'{estimation d'avantage par quantile} (QAE), qui remplace la moyenne par une ligne de base groupée en K-quantiles. QAE introduit une porte à deux régimes au niveau de la réponse : pour les requêtes difficiles (p <= 1 - K), elle renforce les succès rares, tandis que pour les requêtes faciles (p > 1 - K), elle cible les échecs restants. Sous des mises à jour softmax de premier ordre, nous prouvons une {sécurité d'entropie bilatérale}, fournissant des bornes inférieures et supérieures sur le changement d'entropie en une étape, ce qui limite l'explosion et prévient l'effondrement. Empiriquement, cette modification minimale stabilise l'entropie, éparpille l'attribution de crédit (avec un K ajusté, environ 80 % des réponses reçoivent un avantage nul) et produit des gains soutenus en pass@1 sur Qwen3-8B/14B-Base à travers AIME 2024/2025 et AMC 2023. Ces résultats identifient la {conception de la ligne de base} — plutôt que les heuristiques au niveau des tokens — comme le mécanisme principal pour mettre à l'échelle le RLVR.
English
Reinforcement Learning with Verifiable Rewards (RLVR) strengthens LLM
reasoning, but training often oscillates between {entropy collapse} and
{entropy explosion}. We trace both hazards to the mean baseline used in
value-free RL (e.g., GRPO and DAPO), which improperly penalizes
negative-advantage samples under reward outliers. We propose {Quantile
Advantage Estimation} (QAE), replacing the mean with a group-wise K-quantile
baseline. QAE induces a response-level, two-regime gate: on hard queries (p <=
1 - K) it reinforces rare successes, while on easy queries (p > 1 - K) it
targets remaining failures. Under first-order softmax updates, we prove
{two-sided entropy safety}, giving lower and upper bounds on one-step entropy
change that curb explosion and prevent collapse. Empirically, this minimal
modification stabilizes entropy, sparsifies credit assignment (with tuned K,
roughly 80% of responses receive zero advantage), and yields sustained pass@1
gains on Qwen3-8B/14B-Base across AIME 2024/2025 and AMC 2023. These results
identify {baseline design} -- rather than token-level heuristics -- as the
primary mechanism for scaling RLVR.