CARFT: 주석이 달린 사고 사슬 기반 강화 미세 조정을 통한 대규모 언어 모델 추론 능력 향상
CARFT: Boosting LLM Reasoning via Contrastive Learning with Annotated Chain-of-Thought-based Reinforced Fine-Tuning
August 21, 2025
저자: Wenqiao Zhu, Ji Liu, Rongjuncheng Zhang, Haipang Wu, Yulun Zhang
cs.AI
초록
대규모 언어 모델(LLMs)의 광범위한 응용에서 추론 능력은 매우 중요한 역할을 합니다. LLMs의 추론 성능을 향상시키기 위해, 지도 미세 조정(SFT)만으로 훈련된 LLMs의 제한된 일반화 능력을 해결하기 위해 다양한 강화 학습(RL) 기반 미세 조정 접근법이 제안되었습니다. 이러한 접근법의 효과성에도 불구하고, LLMs의 발전을 저해하는 두 가지 주요 한계가 존재합니다. 첫째, 일반적인 RL 기반 접근법은 주석이 달린 사고의 연쇄(CoT)를 무시하고 불안정한 추론 경로 샘플링을 포함하여, 일반적으로 모델 붕괴, 불안정한 훈련 과정, 그리고 최적이 아닌 성능을 초래합니다. 둘째, 기존의 SFT 접근법은 일반적으로 주석이 달린 CoT를 과도하게 강조하여, 잠재적인 CoT의 충분한 활용 부족으로 인한 성능 저하를 초래할 수 있습니다. 본 논문에서는 이러한 한계를 해결하면서 LLMs의 추론 성능을 향상시키기 위해 주석이 달린 CoT 기반 강화 미세 조정 접근법, 즉 CARFT를 제안합니다. 구체적으로, 각 CoT에 대한 표현을 학습하는 것을 제안합니다. 이 표현을 기반으로, 미세 조정 과정을 안내하기 위한 새로운 대조 학습 신호를 설계합니다. 우리의 접근법은 사용 가능한 주석이 달린 CoT를 완전히 활용할 뿐만 아니라, 추가적인 비지도 학습 신호를 통합하여 미세 조정 절차를 안정화합니다. 세 가지 베이스라인 접근법, 두 가지 기초 모델, 그리고 두 가지 데이터셋을 사용한 포괄적인 실험과 심층 분석을 통해 CARFT의 견고성, 성능(최대 10.15%), 그리고 효율성(최대 30.62%) 측면에서의 상당한 이점을 입증합니다. 코드는 https://github.com/WNQzhu/CARFT에서 확인할 수 있습니다.
English
Reasoning capability plays a significantly critical role in the the broad
applications of Large Language Models (LLMs). To enhance the reasoning
performance of LLMs, diverse Reinforcement Learning (RL)-based fine-tuning
approaches have been proposed to address the limited generalization capability
of LLMs trained solely via Supervised Fine-Tuning (SFT). Despite their
effectiveness, two major limitations hinder the advancement of LLMs. First,
vanilla RL-based approaches ignore annotated Chain-of-Thought (CoT) and
incorporate unstable reasoning path sampling, which typically results in model
collapse, unstable training process, and suboptimal performance. Second,
existing SFT approaches generally overemphasize the annotated CoT, potentially
leading to performance degradation due to insufficient exploitation of
potential CoT. In this paper, we propose a Contrastive learning with annotated
CoT-based Reinforced Fine-Tuning approach, i.e., , to enhance the
reasoning performance of LLMs while addressing the aforementioned limitations.
Specifically, we propose learning a representation for each CoT. Based on this
representation, we design novel contrastive signals to guide the fine-tuning
process. Our approach not only fully exploits the available annotated CoT but
also stabilizes the fine-tuning procedure by incorporating an additional
unsupervised learning signal. We conduct comprehensive experiments and in-depth
analysis with three baseline approaches, two foundation models, and two
datasets to demonstrate significant advantages of in terms of
robustness, performance (up to 10.15\%), and efficiency (up to 30.62\%). Code
is available at https://github.com/WNQzhu/CARFT.