Сверхуверенные ошибки требуют более строгой коррекции: асимметричные штрафы за уверенность в обучении с подкреплением
Overconfident Errors Need Stronger Correction: Asymmetric Confidence Penalties for Reinforcement Learning
February 24, 2026
Авторы: Yuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang
cs.AI
Аннотация
Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) стало ведущей парадигмой для улучшения способности к рассуждению у больших языковых моделей (LLM). Однако стандартные алгоритмы RLVR страдают от хорошо известной патологии: хотя они повышают точность Pass@1 за счёт обострения сэмплинга, они одновременно сужают границы рассуждений модели и снижают разнообразие генераций. Мы выявляем коренную причину, которую упускают из виду существующие методы: единообразное наказание за ошибки. Современные подходы — будь то методы фильтрации данных, отбирающие промпты по сложности, или схемы нормализации преимущества — относятся ко всем некорректным траекториям внутри группы идентично. Мы показываем, что эта унифицированность позволяет самоуверенным ошибкам (некорректным путям рассуждений, которые были ошибочно усилены процессом RL) сохраняться и монополизировать вероятностную массу, в конечном счёте подавляя валидные исследовательские траектории. Для решения этой проблемы мы предлагаем Асимметричный уверенно-ориентированный штраф за ошибки (ACE). ACE вводит метрику сдвига уверенности для каждой траектории, c_i = log(pi_theta(y_i|x) / pi_ref(y_i|x)), для динамической модуляции отрицательных преимуществ. Теоретически мы демонстрируем, что градиент ACE может быть декомпозирован на градиент селективного регуляризатора, ограниченного самоуверенными ошибками, плюс хорошо охарактеризованный остаток, который частично смягчает силу регуляризатора. Мы проводим обширные эксперименты по дообучению моделей Qwen2.5-Math-7B, Qwen3-8B-Base и Llama-3.1-8B-Instruct на наборе данных DAPO-Math-17K с использованием GRPO и DAPO в рамках фреймворка VERL. При оценке на MATH-500 и AIME 2025, ACE бесшовно комбинируется с существующими методами и последовательно улучшает весь спектр Pass@k для всех трёх семейств моделей и бенчмарков.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has become the leading paradigm for enhancing reasoning in Large Language Models (LLMs). However, standard RLVR algorithms suffer from a well-documented pathology: while they improve Pass@1 accuracy through sharpened sampling, they simultaneously narrow the model's reasoning boundary and reduce generation diversity. We identify a root cause that existing methods overlook: the uniform penalization of errors. Current approaches -- whether data-filtering methods that select prompts by difficulty, or advantage normalization schemes -- treat all incorrect rollouts within a group identically. We show that this uniformity allows overconfident errors (incorrect reasoning paths that the RL process has spuriously reinforced) to persist and monopolize probability mass, ultimately suppressing valid exploratory trajectories. To address this, we propose the Asymmetric Confidence-aware Error Penalty (ACE). ACE introduces a per-rollout confidence shift metric, c_i = log(pi_theta(y_i|x) / pi_ref(y_i|x)), to dynamically modulate negative advantages. Theoretically, we demonstrate that ACE's gradient can be decomposed into the gradient of a selective regularizer restricted to overconfident errors, plus a well-characterized residual that partially moderates the regularizer's strength. We conduct extensive experiments fine-tuning Qwen2.5-Math-7B, Qwen3-8B-Base, and Llama-3.1-8B-Instruct on the DAPO-Math-17K dataset using GRPO and DAPO within the VERL framework. Evaluated on MATH-500 and AIME 2025, ACE composes seamlessly with existing methods and consistently improves the full Pass@k spectrum across all three model families and benchmarks.