Эмпирическое исследование по выявлению и улучшению моделей рассуждений, подобных R1

Аннотация

В данном отчете представлен третий технический доклад о разработке моделей медленного мышления в рамках проекта STILL. По мере прояснения технического пути масштабирование обучения с подкреплением (RL) стало ключевой методикой для реализации подобных моделей рассуждений. Мы систематически экспериментируем и документируем влияние различных факторов на обучение RL, проводя эксперименты как на базовых моделях, так и на дообученных моделях. В частности, мы демонстрируем, что наш подход к обучению RL последовательно улучшает базовые модели Qwen2.5-32B, повышая как длину ответов, так и точность на тестах. Кроме того, мы показываем, что даже модель, такая как DeepSeek-R1-Distill-Qwen-1.5B, уже достигшая высокого уровня производительности, может быть дополнительно улучшена с помощью обучения RL, достигая точности 39,33% на AIME 2024. Помимо обучения RL, мы также исследуем использование манипуляции инструментами, обнаруживая, что это значительно повышает производительность крупных моделей рассуждений. Этот подход достигает впечатляющей точности 86,67% при жадном поиске на AIME 2024, подчеркивая его эффективность в расширении возможностей моделей. Мы публикуем наши ресурсы на сайте проекта STILL: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.

English

In this report, we present the third technical report on the development of slow-thinking models as part of the STILL project. As the technical pathway becomes clearer, scaling RL training has become a central technique for implementing such reasoning models. We systematically experiment with and document the effects of various factors influencing RL training, conducting experiments on both base models and fine-tuned models. Specifically, we demonstrate that our RL training approach consistently improves the Qwen2.5-32B base models, enhancing both response length and test accuracy. Furthermore, we show that even when a model like DeepSeek-R1-Distill-Qwen-1.5B has already achieved a high performance level, it can be further refined through RL training, reaching an accuracy of 39.33% on AIME 2024. Beyond RL training, we also explore the use of tool manipulation, finding that it significantly boosts the reasoning performance of large reasoning models. This approach achieves a remarkable accuracy of 86.67% with greedy search on AIME 2024, underscoring its effectiveness in enhancing model capabilities. We release our resources at the STILL project website: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.

Эмпирическое исследование по выявлению и улучшению моделей рассуждений, подобных R1

An Empirical Study on Eliciting and Improving R1-like Reasoning Models

Аннотация

Support