SWE-RL : Amélioration du raisonnement des LLM via l'apprentissage par renforcement sur l'évolution ouverte des logiciels

papers.abstract

La récente version de DeepSeek-R1 a démontré l'immense potentiel de l'apprentissage par renforcement (RL) pour améliorer les capacités de raisonnement général des grands modèles de langage (LLM). Bien que DeepSeek-R1 et d'autres travaux ultérieurs se concentrent principalement sur l'application du RL aux problèmes de programmation compétitive et de mathématiques, cet article introduit SWE-RL, la première approche visant à étendre le raisonnement des LLM basé sur le RL pour l'ingénierie logicielle réelle. En s'appuyant sur une récompense légère basée sur des règles (par exemple, le score de similarité entre les solutions de référence et celles générées par le LLM), SWE-RL permet aux LLM de retrouver de manière autonome les processus de raisonnement et les solutions d'un développeur en apprenant à partir de vastes données d'évolution de logiciels open source — l'enregistrement de l'ensemble du cycle de vie d'un logiciel, y compris ses instantanés de code, ses modifications de code et des événements tels que les problèmes et les demandes de fusion. Entraîné sur Llama 3, notre modèle de raisonnement résultant, Llama3-SWE-RL-70B, atteint un taux de résolution de 41,0 % sur SWE-bench Verified — une collection vérifiée par des humains de problèmes réels issus de GitHub. À notre connaissance, il s'agit de la meilleure performance rapportée à ce jour pour les LLM de taille moyenne (<100B), comparable même aux LLM propriétaires de pointe comme GPT-4o. Étonnamment, bien que le RL ait été effectué uniquement sur des données d'évolution logicielle, Llama3-SWE-RL a également développé des compétences de raisonnement généralisées. Par exemple, il montre des résultats améliorés sur cinq tâches hors domaine, à savoir la programmation de fonctions, l'utilisation de bibliothèques, le raisonnement sur le code, les mathématiques et la compréhension générale du langage, alors qu'une base de référence ajustée par apprentissage supervisé entraîne même une dégradation des performances en moyenne. Globalement, SWE-RL ouvre une nouvelle voie pour améliorer les capacités de raisonnement des LLM grâce à l'apprentissage par renforcement sur des données massives d'ingénierie logicielle.

English

The recent DeepSeek-R1 release has demonstrated the immense potential of reinforcement learning (RL) in enhancing the general reasoning capabilities of large language models (LLMs). While DeepSeek-R1 and other follow-up work primarily focus on applying RL to competitive coding and math problems, this paper introduces SWE-RL, the first approach to scale RL-based LLM reasoning for real-world software engineering. Leveraging a lightweight rule-based reward (e.g., the similarity score between ground-truth and LLM-generated solutions), SWE-RL enables LLMs to autonomously recover a developer's reasoning processes and solutions by learning from extensive open-source software evolution data -- the record of a software's entire lifecycle, including its code snapshots, code changes, and events such as issues and pull requests. Trained on top of Llama 3, our resulting reasoning model, Llama3-SWE-RL-70B, achieves a 41.0% solve rate on SWE-bench Verified -- a human-verified collection of real-world GitHub issues. To our knowledge, this is the best performance reported for medium-sized (<100B) LLMs to date, even comparable to leading proprietary LLMs like GPT-4o. Surprisingly, despite performing RL solely on software evolution data, Llama3-SWE-RL has even emerged with generalized reasoning skills. For example, it shows improved results on five out-of-domain tasks, namely, function coding, library use, code reasoning, mathematics, and general language understanding, whereas a supervised-finetuning baseline even leads to performance degradation on average. Overall, SWE-RL opens up a new direction to improve the reasoning capabilities of LLMs through reinforcement learning on massive software engineering data.

SWE-RL : Amélioration du raisonnement des LLM via l'apprentissage par renforcement sur l'évolution ouverte des logiciels

SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution

papers.abstract

Support