Het trainen van software-engineeringagents met lange context en meerdere interacties met behulp van reinforcement learning
Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning
August 5, 2025
Auteurs: Alexander Golubev, Maria Trofimova, Sergei Polezhaev, Ibragim Badertdinov, Maksim Nekrashevich, Anton Shevtsov, Simon Karasik, Sergey Abramov, Andrei Andriushchenko, Filipp Fisin, Sergei Skvortsov, Boris Yangel
cs.AI
Samenvatting
Onderzoek naar de toepassing van Reinforcement Learning (RL) op Large Language Models (LLMs) heeft zich voornamelijk gericht op enkelvoudige problemen, zoals wiskundig redeneren of eenmalige codegeneratie. Hoewel deze problemen kunnen worden gezien als token-level multi-turn MDPs (Markov Decision Processes), komt dit overeen met een gedegenereerd geval van multi-turn interactie waarbij de omgeving geen feedback geeft. Dit staat in contrast met veel real-world domeinen, zoals software engineering (SWE), die rijke multi-turn interacties vereisen met een stateful omgeving die reageert op elke actie met een niet-triviale observatie.
Om deze kloof te overbruggen, demonstreren we de succesvolle toepassing van RL op dit algemene regime. Met behulp van een aangepast Decoupled Advantage Policy Optimization (DAPO) algoritme trainen we een agent gebaseerd op Qwen2.5-72B-Instruct om real-world software engineering taken op te lossen. Onze aanpak verhoogt het slagingspercentage van de agent op de SWE-bench Verified benchmark van een 20% afgewezen fine-tuned baseline naar 39%, zonder te vertrouwen op enige teacher-modellen. Op SWE-rebench presteert onze agent gelijk aan of beter dan toonaangevende open-weight modellen zoals DeepSeek-V3-0324 en Qwen3-235B-A22B met een identieke scaffolding, wat een haalbare weg biedt naar het bouwen van capabelere autonome agents voor complexe real-world problemen op basis van open modellen.
English
Research on applications of Reinforcement Learning (RL) to Large Language
Models (LLMs) has mostly been focused on single-turn problems, such as
mathematical reasoning or single-shot code generation. While these problems can
be viewed as token-level multi-turn MDPs, this view corresponds to a degenerate
case of multi-turn interaction where the environment provides no feedback. This
contrasts with many real-world domains, such as software engineering (SWE),
which require rich multi-turn interactions with a stateful environment that
responds to each action with a non-trivial observation.
To bridge this gap, we demonstrate the successful application of RL to this
general regime. Using a modified Decoupled Advantage Policy Optimization (DAPO)
algorithm, we train an agent based on Qwen2.5-72B-Instruct to solve real-world
software engineering tasks. Our approach increases the agent's success rate on
the SWE-bench Verified benchmark from a 20% rejection fine-tuned baseline to
39%, without relying on any teacher models. On SWE-rebench, our agent matches
or outperforms leading open-weight models such as DeepSeek-V3-0324 and
Qwen3-235B-A22B using an identical scaffolding, offering a viable path toward
building more capable autonomous agents for complex real-world problems based
on open models.