Apprentissage par Renforcement pour le Raisonnement dans les Petits Modèles de Langage : Ce qui Fonctionne et Ce qui Ne Fonctionne Pas
Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't
March 20, 2025
Auteurs: Quy-Anh Dang, Chris Ngo
cs.AI
Résumé
Améliorer les capacités de raisonnement des grands modèles de langage (LLMs)
repose généralement sur des ressources computationnelles massives et des jeux de données étendus,
limitant ainsi leur accessibilité dans des contextes aux ressources limitées. Notre étude
explore le potentiel de l'apprentissage par renforcement (RL) pour améliorer le raisonnement
dans des LLMs de petite taille, en se concentrant sur un modèle de 1,5 milliard de paramètres,
DeepSeek-R1-Distill-Qwen-1.5B, sous des contraintes strictes : entraînement sur 4 GPU NVIDIA
A40 (48 Go de VRAM chacun) en moins de 24 heures. En adaptant l'algorithme d'optimisation
de politique relative par groupe (GRPO) et en constituant un jeu de données compact et de
haute qualité pour le raisonnement mathématique, nous avons mené trois expériences pour
explorer le comportement et les performances du modèle. Nos résultats montrent des gains
rapides en raisonnement - par exemple, la précision sur AMC23 passant de 63 % à 80 % et
AIME24 atteignant 46,7 %, surpassant o1-preview - en utilisant seulement 7 000 échantillons
et un coût d'entraînement de 42 $, comparé à des milliers de dollars pour les modèles de
référence. Cependant, des défis tels que l'instabilité de l'optimisation et les contraintes
de longueur sont apparus avec un entraînement prolongé. Ces résultats mettent en lumière
l'efficacité du fine-tuning basé sur le RL pour les petits LLMs, offrant une alternative
économique aux approches à grande échelle. Nous publions notre code et nos jeux de données
en tant que ressources open-source, fournissant des insights sur les compromis et posant
les bases pour des LLMs capables de raisonnement dans des environnements aux ressources
limitées. Tout est disponible à l'adresse https://github.com/knoveleng/open-rs.
English
Enhancing the reasoning capabilities of large language models (LLMs)
typically relies on massive computational resources and extensive datasets,
limiting accessibility for resource-constrained settings. Our study
investigates the potential of reinforcement learning (RL) to improve reasoning
in small LLMs, focusing on a 1.5-billion-parameter model,
DeepSeek-R1-Distill-Qwen-1.5B, under strict constraints: training on 4 NVIDIA
A40 GPUs (48 GB VRAM each) within 24 hours. Adapting the Group Relative Policy
Optimization (GRPO) algorithm and curating a compact, high-quality mathematical
reasoning dataset, we conducted three experiments to explore model behavior and
performance. Our results demonstrate rapid reasoning gains - e.g., AMC23
accuracy rising from 63% to 80% and AIME24 reaching 46.7%, surpassing
o1-preview - using only 7,000 samples and a $42 training cost, compared to
thousands of dollars for baseline models. However, challenges such as
optimization instability and length constraints emerged with prolonged
training. These findings highlight the efficacy of RL-based fine-tuning for
small LLMs, offering a cost-effective alternative to large-scale approaches. We
release our code and datasets as open-source resources, providing insights into
trade-offs and laying a foundation for scalable, reasoning-capable LLMs in
resource-limited environments. All are available at
https://github.com/knoveleng/open-rs.Summary
AI-Generated Summary