CARFT: Mejora del Razonamiento de LLM mediante Aprendizaje por Contraste con Ajuste Fino Reforzado Basado en Cadena de Pensamiento Anotada
CARFT: Boosting LLM Reasoning via Contrastive Learning with Annotated Chain-of-Thought-based Reinforced Fine-Tuning
August 21, 2025
Autores: Wenqiao Zhu, Ji Liu, Rongjuncheng Zhang, Haipang Wu, Yulun Zhang
cs.AI
Resumen
La capacidad de razonamiento desempeña un papel crítico y significativo en las amplias aplicaciones de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés). Para mejorar el rendimiento de razonamiento de los LLMs, se han propuesto diversos enfoques de ajuste fino basados en Aprendizaje por Refuerzo (RL, por sus siglas en inglés) con el fin de abordar la limitada capacidad de generalización de los LLMs entrenados únicamente mediante Ajuste Fino Supervisado (SFT, por sus siglas en inglés). A pesar de su efectividad, dos limitaciones principales obstaculizan el avance de los LLMs. En primer lugar, los enfoques basados en RL convencionales ignoran las Cadenas de Pensamiento (CoT, por sus siglas en inglés) anotadas e incorporan un muestreo inestable de trayectorias de razonamiento, lo que generalmente resulta en colapso del modelo, un proceso de entrenamiento inestable y un rendimiento subóptimo. En segundo lugar, los enfoques de SFT existentes suelen enfatizar en exceso las CoT anotadas, lo que potencialmente conduce a una degradación del rendimiento debido a la explotación insuficiente de las CoT potenciales. En este artículo, proponemos un enfoque de Ajuste Fino Reforzado basado en Aprendizaje Contrastivo con CoT anotadas, denominado , para mejorar el rendimiento de razonamiento de los LLMs mientras se abordan las limitaciones mencionadas. Específicamente, proponemos aprender una representación para cada CoT. Basándonos en esta representación, diseñamos señales contrastivas novedosas para guiar el proceso de ajuste fino. Nuestro enfoque no solo explota completamente las CoT anotadas disponibles, sino que también estabiliza el procedimiento de ajuste fino mediante la incorporación de una señal de aprendizaje no supervisado adicional. Realizamos experimentos exhaustivos y análisis en profundidad con tres enfoques de referencia, dos modelos base y dos conjuntos de datos para demostrar las ventajas significativas de en términos de robustez, rendimiento (hasta un 10,15\%) y eficiencia (hasta un 30,62\%). El código está disponible en https://github.com/WNQzhu/CARFT.
English
Reasoning capability plays a significantly critical role in the the broad
applications of Large Language Models (LLMs). To enhance the reasoning
performance of LLMs, diverse Reinforcement Learning (RL)-based fine-tuning
approaches have been proposed to address the limited generalization capability
of LLMs trained solely via Supervised Fine-Tuning (SFT). Despite their
effectiveness, two major limitations hinder the advancement of LLMs. First,
vanilla RL-based approaches ignore annotated Chain-of-Thought (CoT) and
incorporate unstable reasoning path sampling, which typically results in model
collapse, unstable training process, and suboptimal performance. Second,
existing SFT approaches generally overemphasize the annotated CoT, potentially
leading to performance degradation due to insufficient exploitation of
potential CoT. In this paper, we propose a Contrastive learning with annotated
CoT-based Reinforced Fine-Tuning approach, i.e., , to enhance the
reasoning performance of LLMs while addressing the aforementioned limitations.
Specifically, we propose learning a representation for each CoT. Based on this
representation, we design novel contrastive signals to guide the fine-tuning
process. Our approach not only fully exploits the available annotated CoT but
also stabilizes the fine-tuning procedure by incorporating an additional
unsupervised learning signal. We conduct comprehensive experiments and in-depth
analysis with three baseline approaches, two foundation models, and two
datasets to demonstrate significant advantages of in terms of
robustness, performance (up to 10.15\%), and efficiency (up to 30.62\%). Code
is available at https://github.com/WNQzhu/CARFT.