ChatPaper.aiChatPaper

Оптимизация предпочтений мышления

Thinking Preference Optimization

February 17, 2025
Авторы: Wang Yang, Hongye Jin, Jingfeng Yang, Vipin Chaudhary, Xiaotian Han
cs.AI

Аннотация

Контролируемая тонкая настройка (Supervised Fine-Tuning, SFT) является проверенным и эффективным методом для улучшения длинных цепочек рассуждений (Chain-of-Thought, CoT) в относительно небольших языковых моделях (LLM) путем их тонкой настройки с использованием длинных CoT-ответов от более крупных LLM. Для постоянного улучшения способностей к рассуждению можно либо собирать новые высококачественные данные SFT с длинными CoT-рассуждениями, либо повторно обучать модели на существующих наборах данных SFT. Однако получение новых данных SFT с длинными CoT-рассуждениями является дорогостоящим и ограниченным процессом, а повторное обучение часто приводит к плато или снижению производительности. Чтобы дополнительно повысить эффективность с использованием данных SFT, мы предлагаем метод Оптимизации Предпочтений Рассуждений (Thinking Preference Optimization, ThinkPO) — простой, но эффективный подход, применяемый после SFT, который улучшает длинные CoT-рассуждения без необходимости в новых длинных CoT-ответах. Вместо этого ThinkPO использует легко доступные или легко получаемые короткие CoT-рассуждения в качестве отвергнутых ответов и длинные CoT-ответы в качестве выбранных ответов на один и тот же вопрос. Затем метод применяет прямую оптимизацию предпочтений, чтобы побудить модель отдавать предпочтение более длинным выводам рассуждений. Эксперименты показывают, что ThinkPO дополнительно улучшает производительность моделей, прошедших SFT, например, увеличивает точность математических рассуждений на 8,6% и длину вывода на 25,9%. Примечательно, что ThinkPO способен постоянно повышать производительность публично доступных моделей, прошедших SFT, например, увеличивая производительность официальной модели DeepSeek-R1-Distill-Qwen-7B на тесте MATH500 с 87,4% до 91,2%.
English
Supervised Fine-Tuning (SFT) has been a go-to and effective method for enhancing long chain-of-thought (CoT) reasoning in relatively small LLMs by fine-tuning them with long CoT responses from larger LLMs. To continually improve reasoning abilities, we can either collect new high-quality long CoT reasoning SFT data or repeatedly train on existing SFT datasets. However, acquiring new long CoT SFT data is costly and limited, while repeated training often results in a performance plateau or decline. To further boost the performance with the SFT data, we propose Thinking Preference Optimization (ThinkPO), a simple yet effective post-SFT method that enhances long CoT reasoning without requiring new long CoT responses. Instead, ThinkPO utilizes readily available or easily obtainable short CoT reasoning responses as rejected answers and long CoT responses as chosen answers for the same question. It then applies direct preference optimization to encourage the model to favor longer reasoning outputs. Experiments show that ThinkPO further improves the reasoning performance of SFT-ed models, e.g. it increases math reasoning accuracy of SFT-ed models by 8.6% and output length by 25.9%. Notably, ThinkPO is capable of continually boosting the performance of the publicly distilled SFT model, e.g., increasing the official DeepSeek-R1-Distill-Qwen-7B's performance on MATH500 from 87.4% to 91.2%.

Summary

AI-Generated Summary

PDF174February 20, 2025