ChatPaper.aiChatPaper

CARFT: Potenziamento del Ragionamento nei LLM attraverso l'Apprendimento Contrastivo con Fine-Tuning Rafforzato basato su Catena di Pensiero Annotata

CARFT: Boosting LLM Reasoning via Contrastive Learning with Annotated Chain-of-Thought-based Reinforced Fine-Tuning

August 21, 2025
Autori: Wenqiao Zhu, Ji Liu, Rongjuncheng Zhang, Haipang Wu, Yulun Zhang
cs.AI

Abstract

La capacità di ragionamento svolge un ruolo estremamente critico nelle ampie applicazioni dei Large Language Models (LLM). Per migliorare le prestazioni di ragionamento degli LLM, sono stati proposti diversi approcci di fine-tuning basati sul Reinforcement Learning (RL) per affrontare la limitata capacità di generalizzazione degli LLM addestrati esclusivamente tramite Supervised Fine-Tuning (SFT). Nonostante la loro efficacia, due principali limitazioni ostacolano il progresso degli LLM. In primo luogo, gli approcci RL tradizionali ignorano le annotazioni della Catena di Pensiero (CoT) e incorporano un campionamento instabile del percorso di ragionamento, che tipicamente porta al collasso del modello, a un processo di addestramento instabile e a prestazioni subottimali. In secondo luogo, gli approcci SFT esistenti generalmente enfatizzano eccessivamente le CoT annotate, potenzialmente portando a un degrado delle prestazioni a causa di uno sfruttamento insufficiente delle potenziali CoT. In questo articolo, proponiamo un approccio di Fine-Tuning Rinforzato basato su apprendimento contrastivo con CoT annotate, denominato , per migliorare le prestazioni di ragionamento degli LLM affrontando le limitazioni sopra menzionate. Nello specifico, proponiamo di apprendere una rappresentazione per ogni CoT. Basandoci su questa rappresentazione, progettiamo nuovi segnali contrastivi per guidare il processo di fine-tuning. Il nostro approccio non solo sfrutta appieno le CoT annotate disponibili, ma stabilizza anche la procedura di fine-tuning incorporando un segnale di apprendimento non supervisionato aggiuntivo. Condurremo esperimenti completi e analisi approfondite con tre approcci di base, due modelli fondamentali e due dataset per dimostrare i significativi vantaggi di in termini di robustezza, prestazioni (fino al 10,15%) ed efficienza (fino al 30,62%). Il codice è disponibile all'indirizzo https://github.com/WNQzhu/CARFT.
English
Reasoning capability plays a significantly critical role in the the broad applications of Large Language Models (LLMs). To enhance the reasoning performance of LLMs, diverse Reinforcement Learning (RL)-based fine-tuning approaches have been proposed to address the limited generalization capability of LLMs trained solely via Supervised Fine-Tuning (SFT). Despite their effectiveness, two major limitations hinder the advancement of LLMs. First, vanilla RL-based approaches ignore annotated Chain-of-Thought (CoT) and incorporate unstable reasoning path sampling, which typically results in model collapse, unstable training process, and suboptimal performance. Second, existing SFT approaches generally overemphasize the annotated CoT, potentially leading to performance degradation due to insufficient exploitation of potential CoT. In this paper, we propose a Contrastive learning with annotated CoT-based Reinforced Fine-Tuning approach, i.e., , to enhance the reasoning performance of LLMs while addressing the aforementioned limitations. Specifically, we propose learning a representation for each CoT. Based on this representation, we design novel contrastive signals to guide the fine-tuning process. Our approach not only fully exploits the available annotated CoT but also stabilizes the fine-tuning procedure by incorporating an additional unsupervised learning signal. We conduct comprehensive experiments and in-depth analysis with three baseline approaches, two foundation models, and two datasets to demonstrate significant advantages of in terms of robustness, performance (up to 10.15\%), and efficiency (up to 30.62\%). Code is available at https://github.com/WNQzhu/CARFT.
PDF33August 25, 2025