Découplage du raisonnement et de la confiance : faire renaître l'étalonnage dans l'apprentissage par renforcement à partir de récompenses vérifiables

Résumé

L'apprentissage par renforcement à partir de récompenses vérifiables (RLVR) améliore significativement le raisonnement des grands modèles de langage (LLM) mais souffre gravement d'une dégénérescence de l'étalonnage, les modèles devenant excessivement sur-confiantes dans des réponses incorrectes. Les études précédentes se consacrent à intégrer directement un objectif d'étalonnage dans la fonction d'optimisation existante. Cependant, notre analyse théorique démontre qu'il existe un conflit fondamental de gradient entre l'optimisation pour maximiser la précision de la politique et minimiser l'erreur d'étalonnage. Sur la base de cette intuition, nous proposons DCPO, un cadre simple mais efficace qui découple systématiquement les objectifs de raisonnement et d'étalonnage. Des expériences approfondies démontrent que notre DCPO préserve non seulement une précision équivalente à GRPO, mais atteint également les meilleures performances d'étalonnage et atténue substantiellement le problème de sur-confiance. Notre étude fournit des insights précieux et une solution pratique pour un déploiement plus fiable des LLM.

English

Reinforcement Learning from Verifiable Rewards (RLVR) significantly enhances large language models (LLMs) reasoning but severely suffers from calibration degeneration, where models become excessively over-confident in incorrect answers. Previous studies devote to directly incorporating calibration objective into existing optimization target. However, our theoretical analysis demonstrates that there exists a fundamental gradient conflict between the optimization for maximizing policy accuracy and minimizing calibration error. Building on this insight, we propose DCPO, a simple yet effective framework that systematically decouples reasoning and calibration objectives. Extensive experiments demonstrate that our DCPO not only preserves accuracy on par with GRPO but also achieves the best calibration performance and substantially mitigates the over-confidence issue. Our study provides valuable insights and practical solution for more reliable LLM deployment.

Découplage du raisonnement et de la confiance : faire renaître l'étalonnage dans l'apprentissage par renforcement à partir de récompenses vérifiables

Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards

Résumé

Support