Les erreurs de surconfiance nécessitent une correction plus forte : pénalités de confiance asymétriques pour l'apprentissage par renforcement

Résumé

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est devenu le paradigme dominant pour améliorer les capacités de raisonnement des grands modèles de langage (LLM). Cependant, les algorithmes standards de RLVR souffrent d'une pathologie bien documentée : bien qu'ils améliorent la précision Pass@1 via un échantillonnage plus sélectif, ils réduisent simultanément les frontières de raisonnement du modèle et diminuent la diversité des générations. Nous identifions une cause fondamentale négligée par les méthodes existantes : la pénalisation uniforme des erreurs. Les approches actuelles – qu'il s'agisse des méthodes de filtrage de données qui sélectionnent les prompts par difficulté, ou des schémas de normalisation de l'avantage – traitent tous les rollouts incorrects au sein d'un groupe de manière identique. Nous montrons que cette uniformité permet aux erreurs surconfiantes (chemins de raisonnement incorrects que le processus de RL a renforcés de manière fallacieuse) de persister et de monopoliser la masse de probabilité, supprimant in fine les trajectoires d'exploration valides. Pour résoudre ce problème, nous proposons la Pénalité d'Erreur Asymétrique et Sensible à la Confiance (ACE). ACE introduit une métrique de décalage de confiance par rollout, c_i = log(pi_theta(y_i|x) / pi_ref(y_i|x)), pour moduler dynamiquement les avantages négatifs. Théoriquement, nous démontrons que le gradient d'ACE peut être décomposé en le gradient d'un régulariseur sélectif restreint aux erreurs surconfiantes, plus un résidu bien caractérisé qui modère partiellement la force du régulariseur. Nous menons des expériences approfondies en affinant Qwen2.5-Math-7B, Qwen3-8B-Base et Llama-3.1-8B-Instruct sur le jeu de données DAPO-Math-17K en utilisant GRPO et DAPO dans le cadre VERL. Évaluée sur MATH-500 et AIME 2025, ACE se combine de manière transparente avec les méthodes existantes et améliore constamment l'ensemble du spectre Pass@k pour les trois familles de modèles et tous les benchmarks.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has become the leading paradigm for enhancing reasoning in Large Language Models (LLMs). However, standard RLVR algorithms suffer from a well-documented pathology: while they improve Pass@1 accuracy through sharpened sampling, they simultaneously narrow the model's reasoning boundary and reduce generation diversity. We identify a root cause that existing methods overlook: the uniform penalization of errors. Current approaches -- whether data-filtering methods that select prompts by difficulty, or advantage normalization schemes -- treat all incorrect rollouts within a group identically. We show that this uniformity allows overconfident errors (incorrect reasoning paths that the RL process has spuriously reinforced) to persist and monopolize probability mass, ultimately suppressing valid exploratory trajectories. To address this, we propose the Asymmetric Confidence-aware Error Penalty (ACE). ACE introduces a per-rollout confidence shift metric, c_i = log(pi_theta(y_i|x) / pi_ref(y_i|x)), to dynamically modulate negative advantages. Theoretically, we demonstrate that ACE's gradient can be decomposed into the gradient of a selective regularizer restricted to overconfident errors, plus a well-characterized residual that partially moderates the regularizer's strength. We conduct extensive experiments fine-tuning Qwen2.5-Math-7B, Qwen3-8B-Base, and Llama-3.1-8B-Instruct on the DAPO-Math-17K dataset using GRPO and DAPO within the VERL framework. Evaluated on MATH-500 and AIME 2025, ACE composes seamlessly with existing methods and consistently improves the full Pass@k spectrum across all three model families and benchmarks.

Les erreurs de surconfiance nécessitent une correction plus forte : pénalités de confiance asymétriques pour l'apprentissage par renforcement

Overconfident Errors Need Stronger Correction: Asymmetric Confidence Penalties for Reinforcement Learning

Résumé

Support