ChatPaper.aiChatPaper

Apprentissage par Renforcement pour le Raisonnement dans les Petits Modèles de Langage : Ce qui Fonctionne et Ce qui Ne Fonctionne Pas

Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't

March 20, 2025
Auteurs: Quy-Anh Dang, Chris Ngo
cs.AI

Résumé

Améliorer les capacités de raisonnement des grands modèles de langage (LLMs) repose généralement sur des ressources computationnelles massives et des jeux de données étendus, limitant ainsi leur accessibilité dans des contextes aux ressources limitées. Notre étude explore le potentiel de l'apprentissage par renforcement (RL) pour améliorer le raisonnement dans des LLMs de petite taille, en se concentrant sur un modèle de 1,5 milliard de paramètres, DeepSeek-R1-Distill-Qwen-1.5B, sous des contraintes strictes : entraînement sur 4 GPU NVIDIA A40 (48 Go de VRAM chacun) en moins de 24 heures. En adaptant l'algorithme d'optimisation de politique relative par groupe (GRPO) et en constituant un jeu de données compact et de haute qualité pour le raisonnement mathématique, nous avons mené trois expériences pour explorer le comportement et les performances du modèle. Nos résultats montrent des gains rapides en raisonnement - par exemple, la précision sur AMC23 passant de 63 % à 80 % et AIME24 atteignant 46,7 %, surpassant o1-preview - en utilisant seulement 7 000 échantillons et un coût d'entraînement de 42 $, comparé à des milliers de dollars pour les modèles de référence. Cependant, des défis tels que l'instabilité de l'optimisation et les contraintes de longueur sont apparus avec un entraînement prolongé. Ces résultats mettent en lumière l'efficacité du fine-tuning basé sur le RL pour les petits LLMs, offrant une alternative économique aux approches à grande échelle. Nous publions notre code et nos jeux de données en tant que ressources open-source, fournissant des insights sur les compromis et posant les bases pour des LLMs capables de raisonnement dans des environnements aux ressources limitées. Tout est disponible à l'adresse https://github.com/knoveleng/open-rs.
English
Enhancing the reasoning capabilities of large language models (LLMs) typically relies on massive computational resources and extensive datasets, limiting accessibility for resource-constrained settings. Our study investigates the potential of reinforcement learning (RL) to improve reasoning in small LLMs, focusing on a 1.5-billion-parameter model, DeepSeek-R1-Distill-Qwen-1.5B, under strict constraints: training on 4 NVIDIA A40 GPUs (48 GB VRAM each) within 24 hours. Adapting the Group Relative Policy Optimization (GRPO) algorithm and curating a compact, high-quality mathematical reasoning dataset, we conducted three experiments to explore model behavior and performance. Our results demonstrate rapid reasoning gains - e.g., AMC23 accuracy rising from 63% to 80% and AIME24 reaching 46.7%, surpassing o1-preview - using only 7,000 samples and a $42 training cost, compared to thousands of dollars for baseline models. However, challenges such as optimization instability and length constraints emerged with prolonged training. These findings highlight the efficacy of RL-based fine-tuning for small LLMs, offering a cost-effective alternative to large-scale approaches. We release our code and datasets as open-source resources, providing insights into trade-offs and laying a foundation for scalable, reasoning-capable LLMs in resource-limited environments. All are available at https://github.com/knoveleng/open-rs.

Summary

AI-Generated Summary

PDF4823March 21, 2025