CARFT : Amélioration du raisonnement des LLM par apprentissage contrastif avec un réglage fin renforcé basé sur des chaînes de pensée annotées
CARFT: Boosting LLM Reasoning via Contrastive Learning with Annotated Chain-of-Thought-based Reinforced Fine-Tuning
August 21, 2025
papers.authors: Wenqiao Zhu, Ji Liu, Rongjuncheng Zhang, Haipang Wu, Yulun Zhang
cs.AI
papers.abstract
La capacité de raisonnement joue un rôle extrêmement critique dans les applications étendues des modèles de langage de grande taille (LLMs). Pour améliorer les performances de raisonnement des LLMs, diverses approches de fine-tuning basées sur l'apprentissage par renforcement (RL) ont été proposées afin de remédier à la capacité de généralisation limitée des LLMs entraînés uniquement par Fine-Tuning Supervisé (SFT). Malgré leur efficacité, deux limitations majeures entravent l'avancement des LLMs. Premièrement, les approches RL classiques ignorent les chaînes de pensée annotées (CoT) et intègrent un échantillonnage instable des chemins de raisonnement, ce qui entraîne généralement un effondrement du modèle, un processus d'entraînement instable et des performances sous-optimales. Deuxièmement, les approches SFT existantes mettent généralement trop l'accent sur les CoT annotées, ce qui peut conduire à une dégradation des performances en raison d'une exploitation insuffisante des CoT potentielles. Dans cet article, nous proposons une approche de Fine-Tuning Renforcé basée sur l'apprentissage contrastif avec des CoT annotées, appelée , pour améliorer les performances de raisonnement des LLMs tout en répondant aux limitations mentionnées ci-dessus. Plus précisément, nous proposons d'apprendre une représentation pour chaque CoT. Sur la base de cette représentation, nous concevons de nouveaux signaux contrastifs pour guider le processus de fine-tuning. Notre approche exploite pleinement les CoT annotées disponibles et stabilise la procédure de fine-tuning en incorporant un signal d'apprentissage non supervisé supplémentaire. Nous menons des expériences complètes et des analyses approfondies avec trois approches de référence, deux modèles de base et deux ensembles de données pour démontrer les avantages significatifs de en termes de robustesse, de performances (jusqu'à 10,15\%) et d'efficacité (jusqu'à 30,62\%). Le code est disponible à l'adresse https://github.com/WNQzhu/CARFT.
English
Reasoning capability plays a significantly critical role in the the broad
applications of Large Language Models (LLMs). To enhance the reasoning
performance of LLMs, diverse Reinforcement Learning (RL)-based fine-tuning
approaches have been proposed to address the limited generalization capability
of LLMs trained solely via Supervised Fine-Tuning (SFT). Despite their
effectiveness, two major limitations hinder the advancement of LLMs. First,
vanilla RL-based approaches ignore annotated Chain-of-Thought (CoT) and
incorporate unstable reasoning path sampling, which typically results in model
collapse, unstable training process, and suboptimal performance. Second,
existing SFT approaches generally overemphasize the annotated CoT, potentially
leading to performance degradation due to insufficient exploitation of
potential CoT. In this paper, we propose a Contrastive learning with annotated
CoT-based Reinforced Fine-Tuning approach, i.e., , to enhance the
reasoning performance of LLMs while addressing the aforementioned limitations.
Specifically, we propose learning a representation for each CoT. Based on this
representation, we design novel contrastive signals to guide the fine-tuning
process. Our approach not only fully exploits the available annotated CoT but
also stabilizes the fine-tuning procedure by incorporating an additional
unsupervised learning signal. We conduct comprehensive experiments and in-depth
analysis with three baseline approaches, two foundation models, and two
datasets to demonstrate significant advantages of in terms of
robustness, performance (up to 10.15\%), and efficiency (up to 30.62\%). Code
is available at https://github.com/WNQzhu/CARFT.