Обучение с подкреплением для рассуждений в небольших языковых моделях: что работает, а что нет
Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't
March 20, 2025
Авторы: Quy-Anh Dang, Chris Ngo
cs.AI
Аннотация
Улучшение способностей к рассуждению у крупных языковых моделей (LLM)
обычно требует значительных вычислительных ресурсов и обширных наборов данных,
что ограничивает доступность в условиях ограниченных ресурсов. Наше исследование
изучает потенциал обучения с подкреплением (RL) для улучшения рассуждений в
небольших LLM, сосредоточившись на модели с 1,5 миллиардами параметров,
DeepSeek-R1-Distill-Qwen-1.5B, при строгих ограничениях: обучение на 4 GPU
NVIDIA A40 (48 ГБ видеопамяти каждый) в течение 24 часов. Адаптировав алгоритм
Group Relative Policy Optimization (GRPO) и создав компактный, высококачественный
набор данных для математических рассуждений, мы провели три эксперимента для
изучения поведения и производительности модели. Наши результаты демонстрируют
быстрое улучшение способностей к рассуждению — например, точность на AMC23
возросла с 63% до 80%, а на AIME24 достигла 46,7%, превзойдя o1-preview —
используя всего 7000 образцов и стоимость обучения в $42 по сравнению с
тысячами долларов для базовых моделей. Однако с увеличением продолжительности
обучения возникли такие проблемы, как нестабильность оптимизации и ограничения
по длине. Эти результаты подчеркивают эффективность тонкой настройки на основе
RL для небольших LLM, предлагая экономичную альтернативу крупномасштабным
подходам. Мы публикуем наш код и наборы данных как открытые ресурсы,
предоставляя понимание компромиссов и закладывая основу для масштабируемых,
способных к рассуждению LLM в условиях ограниченных ресурсов. Все материалы
доступны по адресу https://github.com/knoveleng/open-rs.
English
Enhancing the reasoning capabilities of large language models (LLMs)
typically relies on massive computational resources and extensive datasets,
limiting accessibility for resource-constrained settings. Our study
investigates the potential of reinforcement learning (RL) to improve reasoning
in small LLMs, focusing on a 1.5-billion-parameter model,
DeepSeek-R1-Distill-Qwen-1.5B, under strict constraints: training on 4 NVIDIA
A40 GPUs (48 GB VRAM each) within 24 hours. Adapting the Group Relative Policy
Optimization (GRPO) algorithm and curating a compact, high-quality mathematical
reasoning dataset, we conducted three experiments to explore model behavior and
performance. Our results demonstrate rapid reasoning gains - e.g., AMC23
accuracy rising from 63% to 80% and AIME24 reaching 46.7%, surpassing
o1-preview - using only 7,000 samples and a $42 training cost, compared to
thousands of dollars for baseline models. However, challenges such as
optimization instability and length constraints emerged with prolonged
training. These findings highlight the efficacy of RL-based fine-tuning for
small LLMs, offering a cost-effective alternative to large-scale approaches. We
release our code and datasets as open-source resources, providing insights into
trade-offs and laying a foundation for scalable, reasoning-capable LLMs in
resource-limited environments. All are available at
https://github.com/knoveleng/open-rs.Summary
AI-Generated Summary