CARFT: Улучшение рассуждений больших языковых моделей с помощью контрастного обучения и тонкой настройки с аннотированными цепочками рассуждений на основе подкрепления
CARFT: Boosting LLM Reasoning via Contrastive Learning with Annotated Chain-of-Thought-based Reinforced Fine-Tuning
August 21, 2025
Авторы: Wenqiao Zhu, Ji Liu, Rongjuncheng Zhang, Haipang Wu, Yulun Zhang
cs.AI
Аннотация
Способность к рассуждению играет крайне важную роль в широком применении крупных языковых моделей (LLM). Для повышения качества рассуждений LLM были предложены различные подходы тонкой настройки на основе обучения с подкреплением (RL), направленные на преодоление ограниченной способности к обобщению у моделей, обученных исключительно с помощью контролируемой тонкой настройки (SFT). Несмотря на их эффективность, два основных ограничения препятствуют развитию LLM. Во-первых, стандартные подходы на основе RL игнорируют аннотированные цепочки рассуждений (CoT) и используют нестабильную выборку путей рассуждений, что обычно приводит к коллапсу модели, нестабильному процессу обучения и субоптимальной производительности. Во-вторых, существующие подходы SFT чрезмерно акцентируют внимание на аннотированных CoT, что может привести к ухудшению производительности из-за недостаточного использования потенциальных CoT. В данной статье мы предлагаем подход контрастного обучения с тонкой настройкой на основе аннотированных CoT, т.е. CARFT, для повышения качества рассуждений LLM с учетом указанных ограничений. В частности, мы предлагаем обучение представления для каждой CoT. На основе этого представления мы разрабатываем новые контрастные сигналы для управления процессом тонкой настройки. Наш подход не только полностью использует доступные аннотированные CoT, но и стабилизирует процесс тонкой настройки за счет включения дополнительного сигнала обучения без учителя. Мы проводим всесторонние эксперименты и углубленный анализ с тремя базовыми подходами, двумя базовыми моделями и двумя наборами данных, демонстрируя значительные преимущества CARFT с точки зрения устойчивости, производительности (до 10,15%) и эффективности (до 30,62%). Код доступен по адресу https://github.com/WNQzhu/CARFT.
English
Reasoning capability plays a significantly critical role in the the broad
applications of Large Language Models (LLMs). To enhance the reasoning
performance of LLMs, diverse Reinforcement Learning (RL)-based fine-tuning
approaches have been proposed to address the limited generalization capability
of LLMs trained solely via Supervised Fine-Tuning (SFT). Despite their
effectiveness, two major limitations hinder the advancement of LLMs. First,
vanilla RL-based approaches ignore annotated Chain-of-Thought (CoT) and
incorporate unstable reasoning path sampling, which typically results in model
collapse, unstable training process, and suboptimal performance. Second,
existing SFT approaches generally overemphasize the annotated CoT, potentially
leading to performance degradation due to insufficient exploitation of
potential CoT. In this paper, we propose a Contrastive learning with annotated
CoT-based Reinforced Fine-Tuning approach, i.e., , to enhance the
reasoning performance of LLMs while addressing the aforementioned limitations.
Specifically, we propose learning a representation for each CoT. Based on this
representation, we design novel contrastive signals to guide the fine-tuning
process. Our approach not only fully exploits the available annotated CoT but
also stabilizes the fine-tuning procedure by incorporating an additional
unsupervised learning signal. We conduct comprehensive experiments and in-depth
analysis with three baseline approaches, two foundation models, and two
datasets to demonstrate significant advantages of in terms of
robustness, performance (up to 10.15\%), and efficiency (up to 30.62\%). Code
is available at https://github.com/WNQzhu/CARFT.