Estimativa de Vantagem Quantílica para Raciocínio com Segurança de Entropia
Quantile Advantage Estimation for Entropy-Safe Reasoning
September 26, 2025
Autores: Junkang Wu, Kexin Huang, Jiancan Wu, An Zhang, Xiang Wang, Xiangnan He
cs.AI
Resumo
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) fortalece o raciocínio de LLMs, mas o treinamento frequentemente oscila entre {colapso de entropia} e {explosão de entropia}. Rastreamos ambos os riscos até a linha de base média usada no RL sem valor (por exemplo, GRPO e DAPO), que penaliza indevidamente amostras com vantagem negativa na presença de outliers de recompensa. Propomos a {Estimativa de Vantagem por Quantil} (QAE), substituindo a média por uma linha de base de K-quantil agrupada. O QAE induz um gate de dois regimes no nível de resposta: em consultas difíceis (p <= 1 - K), ele reforça sucessos raros, enquanto em consultas fáceis (p > 1 - K), ele visa falhas remanescentes. Sob atualizações de softmax de primeira ordem, provamos {segurança de entropia bilateral}, fornecendo limites inferiores e superiores para a mudança de entropia em um passo, que contêm a explosão e previnem o colapso. Empiricamente, essa modificação mínima estabiliza a entropia, esparsifica a atribuição de crédito (com K ajustado, aproximadamente 80% das respostas recebem vantagem zero) e resulta em ganhos sustentados de pass@1 no Qwen3-8B/14B-Base em AIME 2024/2025 e AMC 2023. Esses resultados identificam o {design da linha de base} — em vez de heurísticas no nível de token — como o mecanismo primário para escalar o RLVR.
English
Reinforcement Learning with Verifiable Rewards (RLVR) strengthens LLM
reasoning, but training often oscillates between {entropy collapse} and
{entropy explosion}. We trace both hazards to the mean baseline used in
value-free RL (e.g., GRPO and DAPO), which improperly penalizes
negative-advantage samples under reward outliers. We propose {Quantile
Advantage Estimation} (QAE), replacing the mean with a group-wise K-quantile
baseline. QAE induces a response-level, two-regime gate: on hard queries (p <=
1 - K) it reinforces rare successes, while on easy queries (p > 1 - K) it
targets remaining failures. Under first-order softmax updates, we prove
{two-sided entropy safety}, giving lower and upper bounds on one-step entropy
change that curb explosion and prevent collapse. Empirically, this minimal
modification stabilizes entropy, sparsifies credit assignment (with tuned K,
roughly 80% of responses receive zero advantage), and yields sustained pass@1
gains on Qwen3-8B/14B-Base across AIME 2024/2025 and AMC 2023. These results
identify {baseline design} -- rather than token-level heuristics -- as the
primary mechanism for scaling RLVR.