ChatPaper.aiChatPaper

Оценка квантильного преимущества для энтропийно-безопасного рассуждения

Quantile Advantage Estimation for Entropy-Safe Reasoning

September 26, 2025
Авторы: Junkang Wu, Kexin Huang, Jiancan Wu, An Zhang, Xiang Wang, Xiangnan He
cs.AI

Аннотация

Обучение с подкреплением с верифицируемыми наградами (RLVR) усиливает способность крупных языковых моделей (LLM) к рассуждениям, однако процесс обучения часто колеблется между {коллапсом энтропии} и {взрывом энтропии}. Мы связываем обе проблемы с использованием среднего базового уровня в методах RL без оценки ценности (например, GRPO и DAPO), который неправильно штрафует выборки с отрицательным преимуществом при наличии выбросов в наградах. Мы предлагаем метод {Оценки Квантильного Преимущества} (QAE), заменяющий среднее значение групповым K-квантильным базовым уровнем. QAE вводит двухрежимный механизм на уровне ответов: на сложных запросах (p <= 1 - K) он усиливает редкие успехи, а на простых запросах (p > 1 - K) фокусируется на оставшихся ошибках. При использовании обновлений softmax первого порядка мы доказываем {двустороннюю безопасность энтропии}, предоставляя нижние и верхние границы изменения энтропии за один шаг, что предотвращает взрыв и коллапс. Эмпирически это минимальное изменение стабилизирует энтропию, упрощает распределение заслуг (при настройке K примерно 80% ответов получают нулевое преимущество) и обеспечивает устойчивый рост показателя pass@1 на моделях Qwen3-8B/14B-Base в тестах AIME 2024/2025 и AMC 2023. Эти результаты указывают на то, что {проектирование базового уровня}, а не эвристики на уровне токенов, является основным механизмом для масштабирования RLVR.
English
Reinforcement Learning with Verifiable Rewards (RLVR) strengthens LLM reasoning, but training often oscillates between {entropy collapse} and {entropy explosion}. We trace both hazards to the mean baseline used in value-free RL (e.g., GRPO and DAPO), which improperly penalizes negative-advantage samples under reward outliers. We propose {Quantile Advantage Estimation} (QAE), replacing the mean with a group-wise K-quantile baseline. QAE induces a response-level, two-regime gate: on hard queries (p <= 1 - K) it reinforces rare successes, while on easy queries (p > 1 - K) it targets remaining failures. Under first-order softmax updates, we prove {two-sided entropy safety}, giving lower and upper bounds on one-step entropy change that curb explosion and prevent collapse. Empirically, this minimal modification stabilizes entropy, sparsifies credit assignment (with tuned K, roughly 80% of responses receive zero advantage), and yields sustained pass@1 gains on Qwen3-8B/14B-Base across AIME 2024/2025 and AMC 2023. These results identify {baseline design} -- rather than token-level heuristics -- as the primary mechanism for scaling RLVR.
PDF1082September 29, 2025