SWE-RL : Amélioration du raisonnement des LLM via l'apprentissage par renforcement sur l'évolution ouverte des logiciels
SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution
February 25, 2025
Auteurs: Yuxiang Wei, Olivier Duchenne, Jade Copet, Quentin Carbonneaux, Lingming Zhang, Daniel Fried, Gabriel Synnaeve, Rishabh Singh, Sida I. Wang
cs.AI
Résumé
La récente version de DeepSeek-R1 a démontré l'immense potentiel de l'apprentissage par renforcement (RL) pour améliorer les capacités de raisonnement général des grands modèles de langage (LLM). Bien que DeepSeek-R1 et d'autres travaux ultérieurs se concentrent principalement sur l'application du RL aux problèmes de programmation compétitive et de mathématiques, cet article introduit SWE-RL, la première approche visant à étendre le raisonnement des LLM basé sur le RL pour l'ingénierie logicielle réelle. En s'appuyant sur une récompense légère basée sur des règles (par exemple, le score de similarité entre les solutions de référence et celles générées par le LLM), SWE-RL permet aux LLM de retrouver de manière autonome les processus de raisonnement et les solutions d'un développeur en apprenant à partir de vastes données d'évolution de logiciels open source — l'enregistrement de l'ensemble du cycle de vie d'un logiciel, y compris ses instantanés de code, ses modifications de code et des événements tels que les problèmes et les demandes de fusion. Entraîné sur Llama 3, notre modèle de raisonnement résultant, Llama3-SWE-RL-70B, atteint un taux de résolution de 41,0 % sur SWE-bench Verified — une collection vérifiée par des humains de problèmes réels issus de GitHub. À notre connaissance, il s'agit de la meilleure performance rapportée à ce jour pour les LLM de taille moyenne (<100B), comparable même aux LLM propriétaires de pointe comme GPT-4o. Étonnamment, bien que le RL ait été effectué uniquement sur des données d'évolution logicielle, Llama3-SWE-RL a également développé des compétences de raisonnement généralisées. Par exemple, il montre des résultats améliorés sur cinq tâches hors domaine, à savoir la programmation de fonctions, l'utilisation de bibliothèques, le raisonnement sur le code, les mathématiques et la compréhension générale du langage, alors qu'une base de référence ajustée par apprentissage supervisé entraîne même une dégradation des performances en moyenne. Globalement, SWE-RL ouvre une nouvelle voie pour améliorer les capacités de raisonnement des LLM grâce à l'apprentissage par renforcement sur des données massives d'ingénierie logicielle.
English
The recent DeepSeek-R1 release has demonstrated the immense potential of
reinforcement learning (RL) in enhancing the general reasoning capabilities of
large language models (LLMs). While DeepSeek-R1 and other follow-up work
primarily focus on applying RL to competitive coding and math problems, this
paper introduces SWE-RL, the first approach to scale RL-based LLM reasoning for
real-world software engineering. Leveraging a lightweight rule-based reward
(e.g., the similarity score between ground-truth and LLM-generated solutions),
SWE-RL enables LLMs to autonomously recover a developer's reasoning processes
and solutions by learning from extensive open-source software evolution data --
the record of a software's entire lifecycle, including its code snapshots, code
changes, and events such as issues and pull requests. Trained on top of Llama
3, our resulting reasoning model, Llama3-SWE-RL-70B, achieves a 41.0% solve
rate on SWE-bench Verified -- a human-verified collection of real-world GitHub
issues. To our knowledge, this is the best performance reported for
medium-sized (<100B) LLMs to date, even comparable to leading proprietary LLMs
like GPT-4o. Surprisingly, despite performing RL solely on software evolution
data, Llama3-SWE-RL has even emerged with generalized reasoning skills. For
example, it shows improved results on five out-of-domain tasks, namely,
function coding, library use, code reasoning, mathematics, and general language
understanding, whereas a supervised-finetuning baseline even leads to
performance degradation on average. Overall, SWE-RL opens up a new direction to
improve the reasoning capabilities of LLMs through reinforcement learning on
massive software engineering data.Summary
AI-Generated Summary