Otimização de Preferência de Pensamento
Thinking Preference Optimization
February 17, 2025
Autores: Wang Yang, Hongye Jin, Jingfeng Yang, Vipin Chaudhary, Xiaotian Han
cs.AI
Resumo
O Ajuste Fino Supervisionado (SFT, do inglês *Supervised Fine-Tuning*) tem sido um método eficaz e amplamente utilizado para aprimorar o raciocínio de cadeia longa de pensamento (CoT, do inglês *Chain-of-Thought*) em modelos de linguagem grandes (LLMs) relativamente pequenos, ajustando-os com respostas de CoT longas provenientes de LLMs maiores. Para melhorar continuamente as habilidades de raciocínio, podemos coletar novos dados de SFT de alta qualidade com raciocínios CoT longos ou treinar repetidamente com conjuntos de dados SFT existentes. No entanto, a aquisição de novos dados SFT com CoT longos é custosa e limitada, enquanto o treinamento repetido frequentemente resulta em um platô ou declínio no desempenho. Para impulsionar ainda mais o desempenho com os dados SFT, propomos o *Thinking Preference Optimization* (ThinkPO), um método pós-SFT simples, porém eficaz, que aprimora o raciocínio CoT longo sem exigir novas respostas de CoT longas. Em vez disso, o ThinkPO utiliza respostas de raciocínio CoT curtas, que estão prontamente disponíveis ou são facilmente obtidas, como respostas rejeitadas, e respostas de CoT longas como respostas escolhidas para a mesma pergunta. Em seguida, aplica a otimização direta de preferência para incentivar o modelo a favorecer saídas de raciocínio mais longas. Experimentos mostram que o ThinkPO melhora ainda mais o desempenho de raciocínio dos modelos ajustados com SFT, por exemplo, aumentando a precisão de raciocínio matemático em 8,6% e o comprimento da saída em 25,9%. Notavelmente, o ThinkPO é capaz de impulsionar continuamente o desempenho do modelo SFT destilado publicamente, por exemplo, aumentando o desempenho do modelo oficial DeepSeek-R1-Distill-Qwen-7B no MATH500 de 87,4% para 91,2%.
English
Supervised Fine-Tuning (SFT) has been a go-to and effective method for
enhancing long chain-of-thought (CoT) reasoning in relatively small LLMs by
fine-tuning them with long CoT responses from larger LLMs. To continually
improve reasoning abilities, we can either collect new high-quality long CoT
reasoning SFT data or repeatedly train on existing SFT datasets. However,
acquiring new long CoT SFT data is costly and limited, while repeated training
often results in a performance plateau or decline. To further boost the
performance with the SFT data, we propose Thinking Preference Optimization
(ThinkPO), a simple yet effective post-SFT method that enhances long CoT
reasoning without requiring new long CoT responses. Instead, ThinkPO utilizes
readily available or easily obtainable short CoT reasoning responses as
rejected answers and long CoT responses as chosen answers for the same
question. It then applies direct preference optimization to encourage the model
to favor longer reasoning outputs. Experiments show that ThinkPO further
improves the reasoning performance of SFT-ed models, e.g. it increases math
reasoning accuracy of SFT-ed models by 8.6% and output length by 25.9%.
Notably, ThinkPO is capable of continually boosting the performance of the
publicly distilled SFT model, e.g., increasing the official
DeepSeek-R1-Distill-Qwen-7B's performance on MATH500 from 87.4% to 91.2%.Summary
AI-Generated Summary