Обучение тому, что не под силу обучению с подкреплением: чередующаяся онлайн тонкая настройка для самых сложных вопросов
Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions
June 9, 2025
Авторы: Lu Ma, Hao Liang, Meiyi Qiang, Lexiang Tang, Xiaochen Ma, Zhen Hao Wong, Junbo Niu, Chengyu Shen, Runming He, Bin Cui, Wentao Zhang
cs.AI
Аннотация
Последние достижения в области рассуждений больших языковых моделей (LLM) показали, что сложные поведенческие паттерны, такие как планирование и саморефлексия, могут возникать благодаря обучению с подкреплением (RL). Однако, несмотря на эти успехи, RL в его текущей форме остается недостаточным для преодоления ограничений базовой модели, поскольку он в основном оптимизируется на основе существующих знаний модели, а не способствует приобретению новой информации. Чтобы устранить этот недостаток, мы применяем контролируемую тонкую настройку (SFT) для изучения того, что RL не может освоить, что позволяет интегрировать новые знания и паттерны рассуждений с использованием высококачественных демонстрационных данных. Мы анализируем динамику обучения RL и SFT для рассуждений LLM и обнаруживаем, что RL лучше справляется с поддержанием и улучшением производительности на вопросах, соответствующих исходным возможностям модели, тогда как SFT более эффективен для прогресса в вопросах, выходящих за пределы текущих возможностей модели. Вдохновленные комплементарными преимуществами RL и SFT, мы представляем новый подход к обучению — ReLIFT (Reinforcement Learning Interleaved with Online Fine-Tuning). В ReLIFT модель в основном обучается с использованием RL, но при столкновении со сложными вопросами собираются высококачественные решения для тонкой настройки, и процесс обучения чередуется между RL и тонкой настройкой для улучшения способностей модели к рассуждению. ReLIFT демонстрирует среднее улучшение на более чем +5,2 балла на пяти соревновательных бенчмарках и одном бенчмарке вне распределения по сравнению с другими моделями без RL. Кроме того, мы показываем, что ReLIFT превосходит как RL, так и SFT, используя лишь 13\% детализированных демонстрационных данных, что подчеркивает его масштабируемость. Эти результаты убедительно свидетельствуют о том, что ReLIFT преодолевает фундаментальные ограничения RL и подчеркивает его значительный потенциал.
English
Recent advances in large language model (LLM) reasoning have shown that
sophisticated behaviors such as planning and self-reflection can emerge through
reinforcement learning (RL). However, despite these successes, RL in its
current form remains insufficient to induce capabilities that exceed the
limitations of the base model, as it is primarily optimized based on existing
knowledge of the model rather than facilitating the acquisition of new
information. To address this limitation, we employ supervised fine-tuning (SFT)
to learn what RL cannot, which enables the incorporation of new knowledge and
reasoning patterns by leveraging high-quality demonstration data. We analyze
the training dynamics of RL and SFT for LLM reasoning and find that RL excels
at maintaining and improving performance on questions within the model's
original capabilities, while SFT is more effective at enabling progress on
questions beyond the current scope of the model. Motivated by the complementary
strengths of RL and SFT, we introduce a novel training approach,
ReLIFT (Reinforcement Learning Interleaved
with Online Fine-Tuning). In ReLIFT, the model is primarily
trained using RL, but when it encounters challenging questions, high-quality
solutions are collected for fine-tuning, and the training process alternates
between RL and fine-tuning to enhance the model's reasoning abilities. ReLIFT
achieves an average improvement of over +5.2 points across five
competition-level benchmarks and one out-of-distribution benchmark compared to
other zero-RL models. Furthermore, we demonstrate that ReLIFT outperforms both
RL and SFT while using only 13\% of the detailed demonstration data,
highlighting its scalability. These results provide compelling evidence that
ReLIFT overcomes the fundamental limitations of RL and underscores the
significant potential.