SWE-RL : Amélioration du raisonnement des LLM via l'apprentissage par renforcement sur l'évolution ouverte des logicielsSWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open
Software Evolution
La récente version de DeepSeek-R1 a démontré l'immense potentiel de l'apprentissage par renforcement (RL) pour améliorer les capacités de raisonnement général des grands modèles de langage (LLM). Bien que DeepSeek-R1 et d'autres travaux ultérieurs se concentrent principalement sur l'application du RL aux problèmes de programmation compétitive et de mathématiques, cet article introduit SWE-RL, la première approche visant à étendre le raisonnement des LLM basé sur le RL pour l'ingénierie logicielle réelle. En s'appuyant sur une récompense légère basée sur des règles (par exemple, le score de similarité entre les solutions de référence et celles générées par le LLM), SWE-RL permet aux LLM de retrouver de manière autonome les processus de raisonnement et les solutions d'un développeur en apprenant à partir de vastes données d'évolution de logiciels open source — l'enregistrement de l'ensemble du cycle de vie d'un logiciel, y compris ses instantanés de code, ses modifications de code et des événements tels que les problèmes et les demandes de fusion. Entraîné sur Llama 3, notre modèle de raisonnement résultant, Llama3-SWE-RL-70B, atteint un taux de résolution de 41,0 % sur SWE-bench Verified — une collection vérifiée par des humains de problèmes réels issus de GitHub. À notre connaissance, il s'agit de la meilleure performance rapportée à ce jour pour les LLM de taille moyenne (<100B), comparable même aux LLM propriétaires de pointe comme GPT-4o. Étonnamment, bien que le RL ait été effectué uniquement sur des données d'évolution logicielle, Llama3-SWE-RL a également développé des compétences de raisonnement généralisées. Par exemple, il montre des résultats améliorés sur cinq tâches hors domaine, à savoir la programmation de fonctions, l'utilisation de bibliothèques, le raisonnement sur le code, les mathématiques et la compréhension générale du langage, alors qu'une base de référence ajustée par apprentissage supervisé entraîne même une dégradation des performances en moyenne. Globalement, SWE-RL ouvre une nouvelle voie pour améliorer les capacités de raisonnement des LLM grâce à l'apprentissage par renforcement sur des données massives d'ingénierie logicielle.