Entraînement d'Agents de Génie Logiciel à Contexte Long et Tours Multiples avec l'Apprentissage par Renforcement
Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning
August 5, 2025
papers.authors: Alexander Golubev, Maria Trofimova, Sergei Polezhaev, Ibragim Badertdinov, Maksim Nekrashevich, Anton Shevtsov, Simon Karasik, Sergey Abramov, Andrei Andriushchenko, Filipp Fisin, Sergei Skvortsov, Boris Yangel
cs.AI
papers.abstract
Les recherches sur les applications de l'apprentissage par renforcement (Reinforcement Learning, RL) aux modèles de langage à grande échelle (Large Language Models, LLMs) se sont principalement concentrées sur des problèmes à tour unique, tels que le raisonnement mathématique ou la génération de code en une seule étape. Bien que ces problèmes puissent être considérés comme des MDP (Processus de Décision Markovien) multi-tours au niveau des tokens, cette perspective correspond à un cas dégénéré d'interaction multi-tours où l'environnement ne fournit aucun retour. Cela contraste avec de nombreux domaines du monde réel, tels que l'ingénierie logicielle (Software Engineering, SWE), qui nécessitent des interactions multi-tours riches avec un environnement étatique qui répond à chaque action par une observation non triviale.
Pour combler cette lacune, nous démontrons l'application réussie du RL à ce régime général. En utilisant une version modifiée de l'algorithme Decoupled Advantage Policy Optimization (DAPO), nous entraînons un agent basé sur Qwen2.5-72B-Instruct pour résoudre des tâches d'ingénierie logicielle du monde réel. Notre approche augmente le taux de réussite de l'agent sur le benchmark SWE-bench Verified d'une base de référence ajustée par rejet de 20 % à 39 %, sans recourir à aucun modèle enseignant. Sur SWE-rebench, notre agent égalise ou surpasse les modèles open-weight leaders tels que DeepSeek-V3-0324 et Qwen3-235B-A22B en utilisant un échafaudage identique, offrant ainsi une voie viable pour construire des agents autonomes plus performants pour des problèmes complexes du monde réel basés sur des modèles ouverts.
English
Research on applications of Reinforcement Learning (RL) to Large Language
Models (LLMs) has mostly been focused on single-turn problems, such as
mathematical reasoning or single-shot code generation. While these problems can
be viewed as token-level multi-turn MDPs, this view corresponds to a degenerate
case of multi-turn interaction where the environment provides no feedback. This
contrasts with many real-world domains, such as software engineering (SWE),
which require rich multi-turn interactions with a stateful environment that
responds to each action with a non-trivial observation.
To bridge this gap, we demonstrate the successful application of RL to this
general regime. Using a modified Decoupled Advantage Policy Optimization (DAPO)
algorithm, we train an agent based on Qwen2.5-72B-Instruct to solve real-world
software engineering tasks. Our approach increases the agent's success rate on
the SWE-bench Verified benchmark from a 20% rejection fine-tuned baseline to
39%, without relying on any teacher models. On SWE-rebench, our agent matches
or outperforms leading open-weight models such as DeepSeek-V3-0324 and
Qwen3-235B-A22B using an identical scaffolding, offering a viable path toward
building more capable autonomous agents for complex real-world problems based
on open models.