Denkvoorkeuren Optimalisatie
Thinking Preference Optimization
February 17, 2025
Auteurs: Wang Yang, Hongye Jin, Jingfeng Yang, Vipin Chaudhary, Xiaotian Han
cs.AI
Samenvatting
Supervised Fine-Tuning (SFT) is een bewezen en effectieve methode om langere ketens van redeneringen (Chain-of-Thought, CoT) te verbeteren in relatief kleine taalmodelen (LLMs) door ze te fine-tunen met lange CoT-antwoorden van grotere LLMs. Om de redeneervaardigheden voortdurend te verbeteren, kunnen we ofwel nieuwe hoogwaardige lange CoT SFT-gegevens verzamelen, of herhaaldelijk trainen op bestaande SFT-datasets. Het verkrijgen van nieuwe lange CoT SFT-gegevens is echter kostbaar en beperkt, terwijl herhaalde training vaak leidt tot een prestatieplateau of -afname. Om de prestaties met de SFT-gegevens verder te verbeteren, stellen we Thinking Preference Optimization (ThinkPO) voor, een eenvoudige maar effectieve post-SFT-methode die lange CoT-redeneringen verbetert zonder nieuwe lange CoT-antwoorden te vereisen. In plaats daarvan maakt ThinkPO gebruik van gemakkelijk beschikbare of eenvoudig te verkrijgen korte CoT-redeneringen als afgewezen antwoorden en lange CoT-antwoorden als gekozen antwoorden voor dezelfde vraag. Vervolgens past het directe voorkeursoptimalisatie toe om het model aan te moedigen langere redeneeruitkomsten te prefereren. Experimenten tonen aan dat ThinkPO de redeneerprestaties van SFT-getrainde modellen verder verbetert, bijvoorbeeld door de nauwkeurigheid van wiskundig redeneren van SFT-getrainde modellen met 8,6% te verhogen en de uitvoerlengte met 25,9%. Opmerkelijk is dat ThinkPO in staat is om de prestaties van het openbaar gedistilleerde SFT-model voortdurend te verbeteren, bijvoorbeeld door de prestaties van het officiële DeepSeek-R1-Distill-Qwen-7B-model op MATH500 te verhogen van 87,4% naar 91,2%.
English
Supervised Fine-Tuning (SFT) has been a go-to and effective method for
enhancing long chain-of-thought (CoT) reasoning in relatively small LLMs by
fine-tuning them with long CoT responses from larger LLMs. To continually
improve reasoning abilities, we can either collect new high-quality long CoT
reasoning SFT data or repeatedly train on existing SFT datasets. However,
acquiring new long CoT SFT data is costly and limited, while repeated training
often results in a performance plateau or decline. To further boost the
performance with the SFT data, we propose Thinking Preference Optimization
(ThinkPO), a simple yet effective post-SFT method that enhances long CoT
reasoning without requiring new long CoT responses. Instead, ThinkPO utilizes
readily available or easily obtainable short CoT reasoning responses as
rejected answers and long CoT responses as chosen answers for the same
question. It then applies direct preference optimization to encourage the model
to favor longer reasoning outputs. Experiments show that ThinkPO further
improves the reasoning performance of SFT-ed models, e.g. it increases math
reasoning accuracy of SFT-ed models by 8.6% and output length by 25.9%.
Notably, ThinkPO is capable of continually boosting the performance of the
publicly distilled SFT model, e.g., increasing the official
DeepSeek-R1-Distill-Qwen-7B's performance on MATH500 from 87.4% to 91.2%.Summary
AI-Generated Summary