Training von Software-Engineering-Agenten mit langem Kontext und Mehrfachinteraktionen durch Reinforcement Learning
Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning
August 5, 2025
papers.authors: Alexander Golubev, Maria Trofimova, Sergei Polezhaev, Ibragim Badertdinov, Maksim Nekrashevich, Anton Shevtsov, Simon Karasik, Sergey Abramov, Andrei Andriushchenko, Filipp Fisin, Sergei Skvortsov, Boris Yangel
cs.AI
papers.abstract
Die Forschung zur Anwendung von Reinforcement Learning (RL) auf Large Language Models (LLMs) hat sich bisher hauptsächlich auf Einzelprobleme wie mathematisches Denken oder einmalige Code-Generierung konzentriert. Obwohl diese Probleme als tokenbasierte Mehrschritt-Markov-Entscheidungsprozesse (MDPs) betrachtet werden können, entspricht diese Sichtweise einem degenerierten Fall von Mehrschritt-Interaktionen, bei denen die Umgebung kein Feedback liefert. Dies steht im Gegensatz zu vielen realen Anwendungsbereichen, wie der Softwareentwicklung (SWE), die reichhaltige Mehrschritt-Interaktionen mit einer zustandsbehafteten Umgebung erfordern, die auf jede Aktion mit einer nicht-trivialen Beobachtung reagiert.
Um diese Lücke zu schließen, demonstrieren wir die erfolgreiche Anwendung von RL auf dieses allgemeine Regime. Mit einem modifizierten Decoupled Advantage Policy Optimization (DAPO)-Algorithmus trainieren wir einen Agenten auf Basis von Qwen2.5-72B-Instruct, um reale Softwareentwicklungsaufgaben zu lösen. Unser Ansatz steigert die Erfolgsrate des Agenten im SWE-bench Verified-Benchmark von einer 20%-Ablehnungsrate bei feinabgestimmten Basismodellen auf 39%, ohne auf Lehrer-Modelle zurückzugreifen. Im SWE-rebench-Benchmark erreicht oder übertrifft unser Agent führende Open-Weight-Modelle wie DeepSeek-V3-0324 und Qwen3-235B-A22B unter Verwendung identischer Rahmenbedingungen. Dies bietet einen vielversprechenden Weg zur Entwicklung leistungsfähigerer autonomer Agenten für komplexe reale Probleme auf Basis offener Modelle.
English
Research on applications of Reinforcement Learning (RL) to Large Language
Models (LLMs) has mostly been focused on single-turn problems, such as
mathematical reasoning or single-shot code generation. While these problems can
be viewed as token-level multi-turn MDPs, this view corresponds to a degenerate
case of multi-turn interaction where the environment provides no feedback. This
contrasts with many real-world domains, such as software engineering (SWE),
which require rich multi-turn interactions with a stateful environment that
responds to each action with a non-trivial observation.
To bridge this gap, we demonstrate the successful application of RL to this
general regime. Using a modified Decoupled Advantage Policy Optimization (DAPO)
algorithm, we train an agent based on Qwen2.5-72B-Instruct to solve real-world
software engineering tasks. Our approach increases the agent's success rate on
the SWE-bench Verified benchmark from a 20% rejection fine-tuned baseline to
39%, without relying on any teacher models. On SWE-rebench, our agent matches
or outperforms leading open-weight models such as DeepSeek-V3-0324 and
Qwen3-235B-A22B using an identical scaffolding, offering a viable path toward
building more capable autonomous agents for complex real-world problems based
on open models.