Correction auto-récompensée pour le raisonnement mathématique
Self-rewarding correction for mathematical reasoning
February 26, 2025
Auteurs: Wei Xiong, Hanning Zhang, Chenlu Ye, Lichang Chen, Nan Jiang, Tong Zhang
cs.AI
Résumé
Nous étudions les grands modèles de langage (LLM) à raisonnement auto-récompensé, capables de générer simultanément un raisonnement étape par étape et d'évaluer la justesse de leurs sorties pendant l'inférence, sans retour externe. Cette approche intégrée permet à un seul modèle de guider indépendamment son processus de raisonnement, offrant des avantages computationnels pour le déploiement des modèles. Nous nous concentrons particulièrement sur la tâche représentative de l'auto-correction, où les modèles détectent de manière autonome les erreurs dans leurs réponses, révisent les sorties et décident quand mettre fin aux boucles de raffinement itératif. Pour y parvenir, nous proposons un cadre algorithmique en deux étapes pour construire des modèles de raisonnement auto-récompensé en utilisant uniquement des données auto-générées. Dans la première étape, nous utilisons un échantillonnage séquentiel par rejet pour synthétiser de longues trajectoires de chaînes de pensée qui intègrent à la fois des mécanismes d'auto-récompense et d'auto-correction. Le fine-tuning des modèles sur ces données soigneusement sélectionnées leur permet d'apprendre les schémas d'auto-récompense et d'auto-correction. Dans la deuxième étape, nous renforçons davantage la capacité des modèles à évaluer la précision des réponses et à affiner les sorties grâce à l'apprentissage par renforcement avec des signaux basés sur des règles. Les expériences menées avec Llama-3 et Qwen-2.5 démontrent que notre approche surpasse les capacités intrinsèques d'auto-correction et atteint des performances comparables à celles des systèmes reposant sur des modèles de récompense externes.
English
We study self-rewarding reasoning large language models (LLMs), which can
simultaneously generate step-by-step reasoning and evaluate the correctness of
their outputs during the inference time-without external feedback. This
integrated approach allows a single model to independently guide its reasoning
process, offering computational advantages for model deployment. We
particularly focus on the representative task of self-correction, where models
autonomously detect errors in their responses, revise outputs, and decide when
to terminate iterative refinement loops. To enable this, we propose a
two-staged algorithmic framework for constructing self-rewarding reasoning
models using only self-generated data. In the first stage, we employ sequential
rejection sampling to synthesize long chain-of-thought trajectories that
incorporate both self-rewarding and self-correction mechanisms. Fine-tuning
models on these curated data allows them to learn the patterns of
self-rewarding and self-correction. In the second stage, we further enhance the
models' ability to assess response accuracy and refine outputs through
reinforcement learning with rule-based signals. Experiments with Llama-3 and
Qwen-2.5 demonstrate that our approach surpasses intrinsic self-correction
capabilities and achieves performance comparable to systems that rely on
external reward models.Summary
AI-Generated Summary