Optimización de Preferencias de Pensamiento
Thinking Preference Optimization
February 17, 2025
Autores: Wang Yang, Hongye Jin, Jingfeng Yang, Vipin Chaudhary, Xiaotian Han
cs.AI
Resumen
El Ajuste Fino Supervisado (SFT, por sus siglas en inglés) ha sido un método recurrente y efectivo para mejorar el razonamiento de cadenas de pensamiento largas (CoT, por sus siglas en inglés) en modelos de lenguaje grandes (LLMs) relativamente pequeños, ajustándolos con respuestas CoT largas provenientes de LLMs más grandes. Para mejorar continuamente las capacidades de razonamiento, podemos recopilar nuevos datos SFT de razonamiento CoT largo de alta calidad o entrenar repetidamente con conjuntos de datos SFT existentes. Sin embargo, adquirir nuevos datos SFT de CoT largo es costoso y limitado, mientras que el entrenamiento repetido a menudo resulta en una meseta o disminución del rendimiento. Para potenciar aún más el rendimiento con los datos SFT, proponemos la Optimización de Preferencias de Pensamiento (ThinkPO), un método post-SFT simple pero efectivo que mejora el razonamiento CoT largo sin requerir nuevas respuestas CoT largas. En su lugar, ThinkPO utiliza respuestas de razonamiento CoT cortas, fácilmente disponibles o obtenibles, como respuestas rechazadas, y respuestas CoT largas como respuestas elegidas para la misma pregunta. Luego, aplica la optimización directa de preferencias para alentar al modelo a favorecer salidas de razonamiento más largas. Los experimentos muestran que ThinkPO mejora aún más el rendimiento de razonamiento de los modelos ajustados con SFT, por ejemplo, aumenta la precisión en razonamiento matemático de los modelos ajustados con SFT en un 8.6% y la longitud de la salida en un 25.9%. Notablemente, ThinkPO es capaz de impulsar continuamente el rendimiento del modelo SFT destilado públicamente, por ejemplo, aumentando el rendimiento oficial de DeepSeek-R1-Distill-Qwen-7B en MATH500 del 87.4% al 91.2%.
English
Supervised Fine-Tuning (SFT) has been a go-to and effective method for
enhancing long chain-of-thought (CoT) reasoning in relatively small LLMs by
fine-tuning them with long CoT responses from larger LLMs. To continually
improve reasoning abilities, we can either collect new high-quality long CoT
reasoning SFT data or repeatedly train on existing SFT datasets. However,
acquiring new long CoT SFT data is costly and limited, while repeated training
often results in a performance plateau or decline. To further boost the
performance with the SFT data, we propose Thinking Preference Optimization
(ThinkPO), a simple yet effective post-SFT method that enhances long CoT
reasoning without requiring new long CoT responses. Instead, ThinkPO utilizes
readily available or easily obtainable short CoT reasoning responses as
rejected answers and long CoT responses as chosen answers for the same
question. It then applies direct preference optimization to encourage the model
to favor longer reasoning outputs. Experiments show that ThinkPO further
improves the reasoning performance of SFT-ed models, e.g. it increases math
reasoning accuracy of SFT-ed models by 8.6% and output length by 25.9%.
Notably, ThinkPO is capable of continually boosting the performance of the
publicly distilled SFT model, e.g., increasing the official
DeepSeek-R1-Distill-Qwen-7B's performance on MATH500 from 87.4% to 91.2%.Summary
AI-Generated Summary