CARFT: Aprimorando o Raciocínio de LLMs por meio de Aprendizado Contrastivo com Ajuste Fino Reforçado Baseado em Cadeia de Pensamento Anotada
CARFT: Boosting LLM Reasoning via Contrastive Learning with Annotated Chain-of-Thought-based Reinforced Fine-Tuning
August 21, 2025
Autores: Wenqiao Zhu, Ji Liu, Rongjuncheng Zhang, Haipang Wu, Yulun Zhang
cs.AI
Resumo
A capacidade de raciocínio desempenha um papel extremamente crítico nas amplas aplicações dos Modelos de Linguagem de Grande Escala (LLMs). Para aprimorar o desempenho de raciocínio dos LLMs, diversas abordagens de ajuste fino baseadas em Aprendizado por Reforço (RL) foram propostas para abordar a capacidade limitada de generalização dos LLMs treinados exclusivamente por meio de Ajuste Fino Supervisionado (SFT). Apesar de sua eficácia, duas grandes limitações dificultam o avanço dos LLMs. Primeiro, as abordagens RL convencionais ignoram a Cadeia de Pensamento (CoT) anotada e incorporam uma amostragem instável de caminhos de raciocínio, o que geralmente resulta em colapso do modelo, processo de treinamento instável e desempenho subótimo. Segundo, as abordagens SFT existentes geralmente superenfatizam a CoT anotada, potencialmente levando à degradação do desempenho devido à exploração insuficiente da CoT potencial. Neste artigo, propomos uma abordagem de Ajuste Fino Reforçado baseado em Aprendizado Contrastivo com CoT anotada, ou seja, , para aprimorar o desempenho de raciocínio dos LLMs enquanto aborda as limitações mencionadas. Especificamente, propomos aprender uma representação para cada CoT. Com base nessa representação, projetamos sinais contrastivos inovadores para guiar o processo de ajuste fino. Nossa abordagem não apenas explora totalmente a CoT anotada disponível, mas também estabiliza o procedimento de ajuste fino ao incorporar um sinal de aprendizado não supervisionado adicional. Realizamos experimentos abrangentes e análises detalhadas com três abordagens de referência, dois modelos fundamentais e dois conjuntos de dados para demonstrar as vantagens significativas de em termos de robustez, desempenho (até 10,15\%) e eficiência (até 30,62\%). O código está disponível em https://github.com/WNQzhu/CARFT.
English
Reasoning capability plays a significantly critical role in the the broad
applications of Large Language Models (LLMs). To enhance the reasoning
performance of LLMs, diverse Reinforcement Learning (RL)-based fine-tuning
approaches have been proposed to address the limited generalization capability
of LLMs trained solely via Supervised Fine-Tuning (SFT). Despite their
effectiveness, two major limitations hinder the advancement of LLMs. First,
vanilla RL-based approaches ignore annotated Chain-of-Thought (CoT) and
incorporate unstable reasoning path sampling, which typically results in model
collapse, unstable training process, and suboptimal performance. Second,
existing SFT approaches generally overemphasize the annotated CoT, potentially
leading to performance degradation due to insufficient exploitation of
potential CoT. In this paper, we propose a Contrastive learning with annotated
CoT-based Reinforced Fine-Tuning approach, i.e., , to enhance the
reasoning performance of LLMs while addressing the aforementioned limitations.
Specifically, we propose learning a representation for each CoT. Based on this
representation, we design novel contrastive signals to guide the fine-tuning
process. Our approach not only fully exploits the available annotated CoT but
also stabilizes the fine-tuning procedure by incorporating an additional
unsupervised learning signal. We conduct comprehensive experiments and in-depth
analysis with three baseline approaches, two foundation models, and two
datasets to demonstrate significant advantages of in terms of
robustness, performance (up to 10.15\%), and efficiency (up to 30.62\%). Code
is available at https://github.com/WNQzhu/CARFT.