Ottimizzazione delle Preferenze di Pensiero
Thinking Preference Optimization
February 17, 2025
Autori: Wang Yang, Hongye Jin, Jingfeng Yang, Vipin Chaudhary, Xiaotian Han
cs.AI
Abstract
Il Fine-Tuning Supervisionato (SFT) è stato un metodo efficace e ampiamente utilizzato per migliorare il ragionamento a catena di pensiero (CoT) esteso in modelli linguistici di dimensioni relativamente piccole, ottimizzandoli con risposte CoT lunghe provenienti da modelli linguistici più grandi. Per migliorare continuamente le capacità di ragionamento, possiamo raccogliere nuovi dati SFT di alta qualità con CoT estesi o addestrare ripetutamente su dataset SFT esistenti. Tuttavia, acquisire nuovi dati SFT con CoT estesi è costoso e limitato, mentre l'addestramento ripetuto spesso porta a un plateau o a un declino delle prestazioni. Per potenziare ulteriormente le prestazioni con i dati SFT, proponiamo l'Optimizzazione delle Preferenze di Pensiero (ThinkPO), un metodo semplice ma efficace post-SFT che migliora il ragionamento CoT esteso senza richiedere nuove risposte CoT lunghe. Invece, ThinkPO utilizza risposte CoT brevi, facilmente disponibili o ottenibili, come risposte rifiutate e risposte CoT lunghe come risposte scelte per la stessa domanda. Successivamente, applica l'ottimizzazione diretta delle preferenze per incoraggiare il modello a favorire output di ragionamento più lunghi. Gli esperimenti dimostrano che ThinkPO migliora ulteriormente le prestazioni di ragionamento dei modelli SFT, ad esempio aumentando l'accuratezza del ragionamento matematico dei modelli SFT dell'8,6% e la lunghezza dell'output del 25,9%. In particolare, ThinkPO è in grado di potenziare continuamente le prestazioni del modello SFT distillato pubblicamente, ad esempio aumentando le prestazioni ufficiali di DeepSeek-R1-Distill-Qwen-7B su MATH500 dall'87,4% al 91,2%.
English
Supervised Fine-Tuning (SFT) has been a go-to and effective method for
enhancing long chain-of-thought (CoT) reasoning in relatively small LLMs by
fine-tuning them with long CoT responses from larger LLMs. To continually
improve reasoning abilities, we can either collect new high-quality long CoT
reasoning SFT data or repeatedly train on existing SFT datasets. However,
acquiring new long CoT SFT data is costly and limited, while repeated training
often results in a performance plateau or decline. To further boost the
performance with the SFT data, we propose Thinking Preference Optimization
(ThinkPO), a simple yet effective post-SFT method that enhances long CoT
reasoning without requiring new long CoT responses. Instead, ThinkPO utilizes
readily available or easily obtainable short CoT reasoning responses as
rejected answers and long CoT responses as chosen answers for the same
question. It then applies direct preference optimization to encourage the model
to favor longer reasoning outputs. Experiments show that ThinkPO further
improves the reasoning performance of SFT-ed models, e.g. it increases math
reasoning accuracy of SFT-ed models by 8.6% and output length by 25.9%.
Notably, ThinkPO is capable of continually boosting the performance of the
publicly distilled SFT model, e.g., increasing the official
DeepSeek-R1-Distill-Qwen-7B's performance on MATH500 from 87.4% to 91.2%.Summary
AI-Generated Summary