Estimation de l'Avantage Quantile pour un Raisonnement à Entropie Contrôlée

papers.abstract

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) renforce le raisonnement des LLM, mais l'entraînement oscille souvent entre un {effondrement de l'entropie} et une {explosion de l'entropie}. Nous attribuons ces deux risques à la ligne de base moyenne utilisée dans le RL sans valeur (par exemple, GRPO et DAPO), qui pénalise de manière inappropriée les échantillons à avantage négatif en présence de valeurs aberrantes de récompense. Nous proposons l'{estimation d'avantage par quantile} (QAE), qui remplace la moyenne par une ligne de base groupée en K-quantiles. QAE introduit une porte à deux régimes au niveau de la réponse : pour les requêtes difficiles (p <= 1 - K), elle renforce les succès rares, tandis que pour les requêtes faciles (p > 1 - K), elle cible les échecs restants. Sous des mises à jour softmax de premier ordre, nous prouvons une {sécurité d'entropie bilatérale}, fournissant des bornes inférieures et supérieures sur le changement d'entropie en une étape, ce qui limite l'explosion et prévient l'effondrement. Empiriquement, cette modification minimale stabilise l'entropie, éparpille l'attribution de crédit (avec un K ajusté, environ 80 % des réponses reçoivent un avantage nul) et produit des gains soutenus en pass@1 sur Qwen3-8B/14B-Base à travers AIME 2024/2025 et AMC 2023. Ces résultats identifient la {conception de la ligne de base} — plutôt que les heuristiques au niveau des tokens — comme le mécanisme principal pour mettre à l'échelle le RLVR.

English

Reinforcement Learning with Verifiable Rewards (RLVR) strengthens LLM reasoning, but training often oscillates between {entropy collapse} and {entropy explosion}. We trace both hazards to the mean baseline used in value-free RL (e.g., GRPO and DAPO), which improperly penalizes negative-advantage samples under reward outliers. We propose {Quantile Advantage Estimation} (QAE), replacing the mean with a group-wise K-quantile baseline. QAE induces a response-level, two-regime gate: on hard queries (p <= 1 - K) it reinforces rare successes, while on easy queries (p > 1 - K) it targets remaining failures. Under first-order softmax updates, we prove {two-sided entropy safety}, giving lower and upper bounds on one-step entropy change that curb explosion and prevent collapse. Empirically, this minimal modification stabilizes entropy, sparsifies credit assignment (with tuned K, roughly 80% of responses receive zero advantage), and yields sustained pass@1 gains on Qwen3-8B/14B-Base across AIME 2024/2025 and AMC 2023. These results identify {baseline design} -- rather than token-level heuristics -- as the primary mechanism for scaling RLVR.

Estimation de l'Avantage Quantile pour un Raisonnement à Entropie Contrôlée

Quantile Advantage Estimation for Entropy-Safe Reasoning

papers.abstract

Support