Раскрытие потенциала рассуждений предварительно обученных больших языковых моделей с помощью тонкой настройки на основе критики одной задачи
Unleashing the Reasoning Potential of Pre-trained LLMs by Critique Fine-Tuning on One Problem
June 3, 2025
Авторы: Yubo Wang, Ping Nie, Kai Zou, Lijun Wu, Wenhu Chen
cs.AI
Аннотация
Мы наблюдали, что мощные языковые модели, такие как Qwen-Math, MiMo и Phi-4, обладают огромным потенциалом для рассуждений, унаследованным от этапа предварительного обучения. С использованием обучения с подкреплением (RL) эти модели могут значительно улучшить свои способности в задачах, требующих рассуждений. Недавние исследования показали, что даже RL на одной задаче может раскрыть эти возможности моделей. Однако RL не только дорогостоящий, но и нестабильный процесс. Даже одноразовое RL требует сотен часов работы GPU. Это поднимает важный вопрос: существует ли более эффективный способ раскрыть потенциал рассуждений этих мощных базовых языковых моделей? В данной работе мы демонстрируем, что тонкая настройка с использованием критики (Critique Fine-Tuning, CFT) на одной задаче может эффективно раскрыть потенциал рассуждений языковых моделей. Наш метод создает данные для критики, собирая разнообразные решения, сгенерированные моделью для одной задачи, и используя модели-учителя для предоставления детальных критических замечаний. Мы проводим тонкую настройку моделей семейств Qwen и Llama, варьирующихся от 1,5 до 14 миллиардов параметров, на данных CFT и наблюдаем значительное улучшение производительности в различных задачах, требующих рассуждений. Например, всего за 5 часов обучения на GPU, модель Qwen-Math-7B-CFT демонстрирует среднее улучшение на 15% на шести математических тестах и на 16% на трех тестах логического рассуждения. Эти результаты сопоставимы или даже превосходят результаты RL, при этом требуя в 20 раз меньше вычислительных ресурсов. Абляционные исследования подтверждают устойчивость одноразовой CFT к различным задачам. Эти результаты подчеркивают одноразовую CFT как простой, универсальный и вычислительно эффективный подход к раскрытию возможностей рассуждений современных языковых моделей.
English
We have witnessed that strong LLMs like Qwen-Math, MiMo, and Phi-4 possess
immense reasoning potential inherited from the pre-training stage. With
reinforcement learning (RL), these models can improve dramatically on reasoning
tasks. Recent studies have shown that even RL on a single problem can unleash
these models' reasoning capabilities. However, RL is not only expensive but
also unstable. Even one-shot RL requires hundreds of GPU hours. This raises a
critical question: Is there a more efficient way to unleash the reasoning
potential of these powerful base LLMs? In this work, we demonstrate that
Critique Fine-Tuning (CFT) on only one problem can effectively unleash the
reasoning potential of LLMs. Our method constructs critique data by collecting
diverse model-generated solutions to a single problem and using teacher LLMs to
provide detailed critiques. We fine-tune Qwen and Llama family models, ranging
from 1.5B to 14B parameters, on the CFT data and observe significant
performance gains across diverse reasoning tasks. For example, with just 5 GPU
hours of training, Qwen-Math-7B-CFT show an average improvement of 15% on six
math benchmarks and 16% on three logic reasoning benchmarks. These results are
comparable to or even surpass the results from RL with 20x less compute.
Ablation studies reveal the robustness of one-shot CFT across different prompt
problems. These results highlight one-shot CFT as a simple, general, and
compute-efficient approach to unleashing the reasoning capabilities of modern
LLMs.