ChatPaper.aiChatPaper

Обучение с подкреплением для рассуждений в небольших языковых моделях: что работает, а что нет

Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't

March 20, 2025
Авторы: Quy-Anh Dang, Chris Ngo
cs.AI

Аннотация

Улучшение способностей к рассуждению у крупных языковых моделей (LLM) обычно требует значительных вычислительных ресурсов и обширных наборов данных, что ограничивает доступность в условиях ограниченных ресурсов. Наше исследование изучает потенциал обучения с подкреплением (RL) для улучшения рассуждений в небольших LLM, сосредоточившись на модели с 1,5 миллиардами параметров, DeepSeek-R1-Distill-Qwen-1.5B, при строгих ограничениях: обучение на 4 GPU NVIDIA A40 (48 ГБ видеопамяти каждый) в течение 24 часов. Адаптировав алгоритм Group Relative Policy Optimization (GRPO) и создав компактный, высококачественный набор данных для математических рассуждений, мы провели три эксперимента для изучения поведения и производительности модели. Наши результаты демонстрируют быстрое улучшение способностей к рассуждению — например, точность на AMC23 возросла с 63% до 80%, а на AIME24 достигла 46,7%, превзойдя o1-preview — используя всего 7000 образцов и стоимость обучения в $42 по сравнению с тысячами долларов для базовых моделей. Однако с увеличением продолжительности обучения возникли такие проблемы, как нестабильность оптимизации и ограничения по длине. Эти результаты подчеркивают эффективность тонкой настройки на основе RL для небольших LLM, предлагая экономичную альтернативу крупномасштабным подходам. Мы публикуем наш код и наборы данных как открытые ресурсы, предоставляя понимание компромиссов и закладывая основу для масштабируемых, способных к рассуждению LLM в условиях ограниченных ресурсов. Все материалы доступны по адресу https://github.com/knoveleng/open-rs.
English
Enhancing the reasoning capabilities of large language models (LLMs) typically relies on massive computational resources and extensive datasets, limiting accessibility for resource-constrained settings. Our study investigates the potential of reinforcement learning (RL) to improve reasoning in small LLMs, focusing on a 1.5-billion-parameter model, DeepSeek-R1-Distill-Qwen-1.5B, under strict constraints: training on 4 NVIDIA A40 GPUs (48 GB VRAM each) within 24 hours. Adapting the Group Relative Policy Optimization (GRPO) algorithm and curating a compact, high-quality mathematical reasoning dataset, we conducted three experiments to explore model behavior and performance. Our results demonstrate rapid reasoning gains - e.g., AMC23 accuracy rising from 63% to 80% and AIME24 reaching 46.7%, surpassing o1-preview - using only 7,000 samples and a $42 training cost, compared to thousands of dollars for baseline models. However, challenges such as optimization instability and length constraints emerged with prolonged training. These findings highlight the efficacy of RL-based fine-tuning for small LLMs, offering a cost-effective alternative to large-scale approaches. We release our code and datasets as open-source resources, providing insights into trade-offs and laying a foundation for scalable, reasoning-capable LLMs in resource-limited environments. All are available at https://github.com/knoveleng/open-rs.

Summary

AI-Generated Summary

PDF4823March 21, 2025