Denkpräferenzoptimierung
Thinking Preference Optimization
February 17, 2025
Autoren: Wang Yang, Hongye Jin, Jingfeng Yang, Vipin Chaudhary, Xiaotian Han
cs.AI
Zusammenfassung
Supervised Fine-Tuning (SFT) hat sich als eine bewährte und effektive Methode erwiesen, um die langkettige Denkfähigkeit (Chain-of-Thought, CoT) in relativ kleinen Large Language Models (LLMs) zu verbessern, indem sie mit langen CoT-Antworten von größeren LLMs feinabgestimmt werden. Um die Denkfähigkeiten kontinuierlich zu steigern, können wir entweder neue hochwertige lange CoT-SFT-Daten sammeln oder wiederholt mit bestehenden SFT-Datensätzen trainieren. Allerdings ist die Beschaffung neuer langer CoT-SFT-Daten kostspielig und begrenzt, während wiederholtes Training oft zu einem Leistungsplateau oder -rückgang führt. Um die Leistung mit den SFT-Daten weiter zu steigern, schlagen wir Thinking Preference Optimization (ThinkPO) vor, eine einfache, aber effektive Methode nach dem SFT, die die lange CoT-Denkfähigkeit verbessert, ohne neue lange CoT-Antworten zu benötigen. Stattdessen nutzt ThinkPO leicht verfügbare oder einfach zu beschaffende kurze CoT-Antworten als abgelehnte Antworten und lange CoT-Antworten als ausgewählte Antworten für dieselbe Frage. Anschließend wird Direct Preference Optimization angewendet, um das Modell dazu zu ermutigen, längere Denkausgaben zu bevorzugen. Experimente zeigen, dass ThinkPO die Denkleistung von SFT-modellierten Modellen weiter verbessert, z.B. steigert es die mathematische Denkgenauigkeit von SFT-modellierten Modellen um 8,6 % und die Ausgabelänge um 25,9 %. Bemerkenswert ist, dass ThinkPO in der Lage ist, die Leistung des öffentlich destillierten SFT-Modells kontinuierlich zu steigern, z.B. erhöht es die offizielle Leistung von DeepSeek-R1-Distill-Qwen-7B auf MATH500 von 87,4 % auf 91,2 %.
English
Supervised Fine-Tuning (SFT) has been a go-to and effective method for
enhancing long chain-of-thought (CoT) reasoning in relatively small LLMs by
fine-tuning them with long CoT responses from larger LLMs. To continually
improve reasoning abilities, we can either collect new high-quality long CoT
reasoning SFT data or repeatedly train on existing SFT datasets. However,
acquiring new long CoT SFT data is costly and limited, while repeated training
often results in a performance plateau or decline. To further boost the
performance with the SFT data, we propose Thinking Preference Optimization
(ThinkPO), a simple yet effective post-SFT method that enhances long CoT
reasoning without requiring new long CoT responses. Instead, ThinkPO utilizes
readily available or easily obtainable short CoT reasoning responses as
rejected answers and long CoT responses as chosen answers for the same
question. It then applies direct preference optimization to encourage the model
to favor longer reasoning outputs. Experiments show that ThinkPO further
improves the reasoning performance of SFT-ed models, e.g. it increases math
reasoning accuracy of SFT-ed models by 8.6% and output length by 25.9%.
Notably, ThinkPO is capable of continually boosting the performance of the
publicly distilled SFT model, e.g., increasing the official
DeepSeek-R1-Distill-Qwen-7B's performance on MATH500 from 87.4% to 91.2%.Summary
AI-Generated Summary