Overmoedige fouten vergen sterkere correctie: asymmetrische zekerheidsstraffen bij reinforcement learning
Overconfident Errors Need Stronger Correction: Asymmetric Confidence Penalties for Reinforcement Learning
February 24, 2026
Auteurs: Yuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang
cs.AI
Samenvatting
Versterkend Leren met Verifieerbare Beloningen (RLVR) is het toonaangevende paradigma geworden voor het verbeteren van redeneervermogen in Grote Taalmodellen (LLM's). Standaard RLVR-algoritmen lijden echter aan een goed gedocumenteerd probleem: hoewel ze de Pass@1-nauwkeurigheid verbeteren door een scherpere steekproef, vernauwen ze tegelijkertijd de redeneergrens van het model en verminderen ze de generatiediversiteit. Wij identificeren een hoofdoorzaak die bestaande methoden over het hoofd zien: de uniforme bestraffing van fouten. Huidige benaderingen – of het nu gaat om datafilteringsmethoden die prompts op moeilijkheidsgraad selecteren, of om normalisatieschema's voor voordelen – behandelen alle incorrecte rollouts binnen een groep identiek. Wij tonen aan dat deze uniformiteit ervoor zorgt dat overmoedige fouten (incorrecte redeneerpaden die het RL-proces ten onrechte heeft versterkt) blijven bestaan en de waarschijnlijkheidsmassa monopoliseren, waardoor uiteindelijk geldige verkennende trajecten worden onderdrukt. Om dit aan te pakken, stellen we de Asymmetrische Vertrouwensbewuste Foutstraf (ACE) voor. ACE introduceert een metriek voor vertrouwensverschuiving per rollout, c_i = log(pi_theta(y_i|x) / pi_ref(y_i|x)), om negatieve voordelen dynamisch te moduleren. Theoretisch tonen we aan dat de gradiënt van ACE kan worden ontbonden in de gradiënt van een selectieve regularisatieterm, beperkt tot overmoedige fouten, plus een goed gekarakteriseerd residu dat de sterkte van de regularisatieterm gedeeltelijk tempert. We voeren uitgebreide experimenten uit met het fine-tunen van Qwen2.5-Math-7B, Qwen3-8B-Base en Llama-3.1-8B-Instruct op de DAPO-Math-17K-dataset met behulp van GRPO en DAPO binnen het VERL-framework. Geëvalueerd op MATH-500 en AIME 2025, integreert ACE naadloos met bestaande methoden en verbetert consequent het volledige Pass@k-spectrum voor alle drie de modelfamilies en benchmarks.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has become the leading paradigm for enhancing reasoning in Large Language Models (LLMs). However, standard RLVR algorithms suffer from a well-documented pathology: while they improve Pass@1 accuracy through sharpened sampling, they simultaneously narrow the model's reasoning boundary and reduce generation diversity. We identify a root cause that existing methods overlook: the uniform penalization of errors. Current approaches -- whether data-filtering methods that select prompts by difficulty, or advantage normalization schemes -- treat all incorrect rollouts within a group identically. We show that this uniformity allows overconfident errors (incorrect reasoning paths that the RL process has spuriously reinforced) to persist and monopolize probability mass, ultimately suppressing valid exploratory trajectories. To address this, we propose the Asymmetric Confidence-aware Error Penalty (ACE). ACE introduces a per-rollout confidence shift metric, c_i = log(pi_theta(y_i|x) / pi_ref(y_i|x)), to dynamically modulate negative advantages. Theoretically, we demonstrate that ACE's gradient can be decomposed into the gradient of a selective regularizer restricted to overconfident errors, plus a well-characterized residual that partially moderates the regularizer's strength. We conduct extensive experiments fine-tuning Qwen2.5-Math-7B, Qwen3-8B-Base, and Llama-3.1-8B-Instruct on the DAPO-Math-17K dataset using GRPO and DAPO within the VERL framework. Evaluated on MATH-500 and AIME 2025, ACE composes seamlessly with existing methods and consistently improves the full Pass@k spectrum across all three model families and benchmarks.