CARFT: Verbesserung des LLM-Reasonings durch kontrastives Lernen mit annotiertem Chain-of-Thought-basiertem verstärktem Fein-Tuning
CARFT: Boosting LLM Reasoning via Contrastive Learning with Annotated Chain-of-Thought-based Reinforced Fine-Tuning
August 21, 2025
papers.authors: Wenqiao Zhu, Ji Liu, Rongjuncheng Zhang, Haipang Wu, Yulun Zhang
cs.AI
papers.abstract
Die Fähigkeit zum logischen Denken spielt eine äußerst entscheidende Rolle in den vielfältigen Anwendungen von Large Language Models (LLMs). Um die Denkleistung von LLMs zu verbessern, wurden verschiedene auf Reinforcement Learning (RL) basierende Feinabstimmungsansätze vorgeschlagen, um die begrenzte Generalisierungsfähigkeit von LLMs, die ausschließlich durch Supervised Fine-Tuning (SFT) trainiert wurden, zu adressieren. Trotz ihrer Wirksamkeit behindern zwei Hauptprobleme den Fortschritt von LLMs. Erstens ignorieren herkömmliche RL-basierte Ansätze annotierte Chain-of-Thought (CoT) und integrieren eine instabile Pfadabtastung, was typischerweise zu Modellzusammenbrüchen, instabilen Trainingsprozessen und suboptimaler Leistung führt. Zweitens betonen bestehende SFT-Ansätze die annotierte CoT in der Regel übermäßig, was möglicherweise zu Leistungseinbußen aufgrund einer unzureichenden Nutzung der potenziellen CoT führt. In diesem Artikel schlagen wir einen Ansatz zur verstärkten Feinabstimmung basierend auf kontrastivem Lernen mit annotierter CoT vor, d.h. , um die Denkleistung von LLMs zu verbessern und gleichzeitig die genannten Einschränkungen zu überwinden. Konkret schlagen wir vor, eine Repräsentation für jede CoT zu erlernen. Basierend auf dieser Repräsentation entwerfen wir neuartige kontrastive Signale, um den Feinabstimmungsprozess zu steuern. Unser Ansatz nutzt nicht nur die verfügbare annotierte CoT vollständig aus, sondern stabilisiert auch den Feinabstimmungsprozess durch die Einbindung eines zusätzlichen unüberwachten Lernsignals. Wir führen umfassende Experimente und detaillierte Analysen mit drei Baseline-Ansätzen, zwei Grundmodellen und zwei Datensätzen durch, um die signifikanten Vorteile von in Bezug auf Robustheit, Leistung (bis zu 10,15\%) und Effizienz (bis zu 30,62\%) zu demonstrieren. Der Code ist verfügbar unter https://github.com/WNQzhu/CARFT.
English
Reasoning capability plays a significantly critical role in the the broad
applications of Large Language Models (LLMs). To enhance the reasoning
performance of LLMs, diverse Reinforcement Learning (RL)-based fine-tuning
approaches have been proposed to address the limited generalization capability
of LLMs trained solely via Supervised Fine-Tuning (SFT). Despite their
effectiveness, two major limitations hinder the advancement of LLMs. First,
vanilla RL-based approaches ignore annotated Chain-of-Thought (CoT) and
incorporate unstable reasoning path sampling, which typically results in model
collapse, unstable training process, and suboptimal performance. Second,
existing SFT approaches generally overemphasize the annotated CoT, potentially
leading to performance degradation due to insufficient exploitation of
potential CoT. In this paper, we propose a Contrastive learning with annotated
CoT-based Reinforced Fine-Tuning approach, i.e., , to enhance the
reasoning performance of LLMs while addressing the aforementioned limitations.
Specifically, we propose learning a representation for each CoT. Based on this
representation, we design novel contrastive signals to guide the fine-tuning
process. Our approach not only fully exploits the available annotated CoT but
also stabilizes the fine-tuning procedure by incorporating an additional
unsupervised learning signal. We conduct comprehensive experiments and in-depth
analysis with three baseline approaches, two foundation models, and two
datasets to demonstrate significant advantages of in terms of
robustness, performance (up to 10.15\%), and efficiency (up to 30.62\%). Code
is available at https://github.com/WNQzhu/CARFT.