S^2R : Enseigner aux LLM l'auto-vérification et l'auto-correction via l'apprentissage par renforcement

papers.abstract

Des études récentes ont démontré l'efficacité de la mise à l'échelle des LLM (modèles de langage de grande taille) lors des tests. Cependant, les approches existantes pour stimuler les capacités de réflexion approfondie des LLM nécessitent généralement des données à grande échelle ou des efforts d'entraînement significatifs. Par ailleurs, il reste incertain comment améliorer les capacités de réflexion des modèles de base moins puissants. Dans ce travail, nous introduisons S^2R, un cadre efficace qui améliore le raisonnement des LLM en enseignant aux modèles à s'auto-vérifier et à s'auto-corriger lors de l'inférence. Plus précisément, nous initialisons d'abord les LLM avec des comportements itératifs d'auto-vérification et d'auto-correction grâce à un ajustement fin supervisé sur des données soigneusement sélectionnées. Les compétences d'auto-vérification et d'auto-correction sont ensuite renforcées par un apprentissage par renforcement à la fois au niveau des résultats et des processus, avec des exigences de ressources minimisées, permettant au modèle d'affiner de manière adaptative son processus de raisonnement lors de l'inférence. Nos résultats montrent qu'avec seulement 3,1k échantillons d'initialisation de comportements d'auto-vérification et d'auto-correction, Qwen2.5-math-7B améliore sa précision de 51,0 % à 81,6 %, surpassant les modèles entraînés sur une quantité équivalente de données distillées par CoT long. Des expériences approfondies et des analyses basées sur trois modèles de base à travers des benchmarks en domaine et hors domaine valident l'efficacité de S^2R. Notre code et nos données sont disponibles à l'adresse https://github.com/NineAbyss/S2R.

English

Recent studies have demonstrated the effectiveness of LLM test-time scaling. However, existing approaches to incentivize LLMs' deep thinking abilities generally require large-scale data or significant training efforts. Meanwhile, it remains unclear how to improve the thinking abilities of less powerful base models. In this work, we introduce S^2R, an efficient framework that enhances LLM reasoning by teaching models to self-verify and self-correct during inference. Specifically, we first initialize LLMs with iterative self-verification and self-correction behaviors through supervised fine-tuning on carefully curated data. The self-verification and self-correction skills are then further strengthened by both outcome-level and process-level reinforcement learning, with minimized resource requirements, enabling the model to adaptively refine its reasoning process during inference. Our results demonstrate that, with only 3.1k self-verifying and self-correcting behavior initialization samples, Qwen2.5-math-7B achieves an accuracy improvement from 51.0\% to 81.6\%, outperforming models trained on an equivalent amount of long-CoT distilled data. Extensive experiments and analysis based on three base models across both in-domain and out-of-domain benchmarks validate the effectiveness of S^2R. Our code and data are available at https://github.com/NineAbyss/S2R.

S^2R : Enseigner aux LLM l'auto-vérification et l'auto-correction via l'apprentissage par renforcement

S^2R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning

papers.abstract

Support