CARFT: Verbetering van LLM-redenering via contrastief leren met geannoteerde Chain-of-Thought-gebaseerde versterkte fine-tuning
CARFT: Boosting LLM Reasoning via Contrastive Learning with Annotated Chain-of-Thought-based Reinforced Fine-Tuning
August 21, 2025
Auteurs: Wenqiao Zhu, Ji Liu, Rongjuncheng Zhang, Haipang Wu, Yulun Zhang
cs.AI
Samenvatting
Redeneervermogen speelt een uiterst cruciale rol in de brede toepassingen van Large Language Models (LLMs). Om het redeneervermogen van LLMs te verbeteren, zijn diverse Reinforcement Learning (RL)-gebaseerde fine-tuning benaderingen voorgesteld om de beperkte generalisatiecapaciteit van LLMs die uitsluitend via Supervised Fine-Tuning (SFT) zijn getraind, aan te pakken. Ondanks hun effectiviteit belemmeren twee belangrijke beperkingen de vooruitgang van LLMs. Ten eerste negeren standaard RL-gebaseerde benaderingen geannoteerde Chain-of-Thought (CoT) en incorporeren ze instabiele redeneerpad-sampling, wat typisch resulteert in modelinstorting, een instabiel trainingsproces en suboptimale prestaties. Ten tweede benadrukken bestaande SFT-benaderingen over het algemeen de geannoteerde CoT te sterk, wat mogelijk leidt tot prestatievermindering door onvoldoende benutting van potentiële CoT. In dit artikel stellen we een Contrastive learning met geannoteerde CoT-gebaseerde Reinforced Fine-Tuning benadering voor, genaamd , om het redeneervermogen van LLMs te verbeteren en tegelijkertijd de bovengenoemde beperkingen aan te pakken. Specifiek stellen we voor om een representatie voor elke CoT te leren. Op basis van deze representatie ontwerpen we nieuwe contrastieve signalen om het fine-tuning proces te begeleiden. Onze benadering benut niet alleen de beschikbare geannoteerde CoT volledig, maar stabiliseert ook het fine-tuning proces door een extra onbewaakt leersignaal te incorporeren. We voeren uitgebreide experimenten en diepgaande analyses uit met drie baseline-benaderingen, twee foundation-modellen en twee datasets om de significante voordelen van aan te tonen op het gebied van robuustheid, prestaties (tot 10,15\%) en efficiëntie (tot 30,62\%). Code is beschikbaar op https://github.com/WNQzhu/CARFT.
English
Reasoning capability plays a significantly critical role in the the broad
applications of Large Language Models (LLMs). To enhance the reasoning
performance of LLMs, diverse Reinforcement Learning (RL)-based fine-tuning
approaches have been proposed to address the limited generalization capability
of LLMs trained solely via Supervised Fine-Tuning (SFT). Despite their
effectiveness, two major limitations hinder the advancement of LLMs. First,
vanilla RL-based approaches ignore annotated Chain-of-Thought (CoT) and
incorporate unstable reasoning path sampling, which typically results in model
collapse, unstable training process, and suboptimal performance. Second,
existing SFT approaches generally overemphasize the annotated CoT, potentially
leading to performance degradation due to insufficient exploitation of
potential CoT. In this paper, we propose a Contrastive learning with annotated
CoT-based Reinforced Fine-Tuning approach, i.e., , to enhance the
reasoning performance of LLMs while addressing the aforementioned limitations.
Specifically, we propose learning a representation for each CoT. Based on this
representation, we design novel contrastive signals to guide the fine-tuning
process. Our approach not only fully exploits the available annotated CoT but
also stabilizes the fine-tuning procedure by incorporating an additional
unsupervised learning signal. We conduct comprehensive experiments and in-depth
analysis with three baseline approaches, two foundation models, and two
datasets to demonstrate significant advantages of in terms of
robustness, performance (up to 10.15\%), and efficiency (up to 30.62\%). Code
is available at https://github.com/WNQzhu/CARFT.