Training von Software-Engineering-Agenten mit langem Kontext und Mehrfachinteraktionen durch Reinforcement Learning

papers.abstract

Die Forschung zur Anwendung von Reinforcement Learning (RL) auf Large Language Models (LLMs) hat sich bisher hauptsächlich auf Einzelprobleme wie mathematisches Denken oder einmalige Code-Generierung konzentriert. Obwohl diese Probleme als tokenbasierte Mehrschritt-Markov-Entscheidungsprozesse (MDPs) betrachtet werden können, entspricht diese Sichtweise einem degenerierten Fall von Mehrschritt-Interaktionen, bei denen die Umgebung kein Feedback liefert. Dies steht im Gegensatz zu vielen realen Anwendungsbereichen, wie der Softwareentwicklung (SWE), die reichhaltige Mehrschritt-Interaktionen mit einer zustandsbehafteten Umgebung erfordern, die auf jede Aktion mit einer nicht-trivialen Beobachtung reagiert. Um diese Lücke zu schließen, demonstrieren wir die erfolgreiche Anwendung von RL auf dieses allgemeine Regime. Mit einem modifizierten Decoupled Advantage Policy Optimization (DAPO)-Algorithmus trainieren wir einen Agenten auf Basis von Qwen2.5-72B-Instruct, um reale Softwareentwicklungsaufgaben zu lösen. Unser Ansatz steigert die Erfolgsrate des Agenten im SWE-bench Verified-Benchmark von einer 20%-Ablehnungsrate bei feinabgestimmten Basismodellen auf 39%, ohne auf Lehrer-Modelle zurückzugreifen. Im SWE-rebench-Benchmark erreicht oder übertrifft unser Agent führende Open-Weight-Modelle wie DeepSeek-V3-0324 und Qwen3-235B-A22B unter Verwendung identischer Rahmenbedingungen. Dies bietet einen vielversprechenden Weg zur Entwicklung leistungsfähigerer autonomer Agenten für komplexe reale Probleme auf Basis offener Modelle.

English

Research on applications of Reinforcement Learning (RL) to Large Language Models (LLMs) has mostly been focused on single-turn problems, such as mathematical reasoning or single-shot code generation. While these problems can be viewed as token-level multi-turn MDPs, this view corresponds to a degenerate case of multi-turn interaction where the environment provides no feedback. This contrasts with many real-world domains, such as software engineering (SWE), which require rich multi-turn interactions with a stateful environment that responds to each action with a non-trivial observation. To bridge this gap, we demonstrate the successful application of RL to this general regime. Using a modified Decoupled Advantage Policy Optimization (DAPO) algorithm, we train an agent based on Qwen2.5-72B-Instruct to solve real-world software engineering tasks. Our approach increases the agent's success rate on the SWE-bench Verified benchmark from a 20% rejection fine-tuned baseline to 39%, without relying on any teacher models. On SWE-rebench, our agent matches or outperforms leading open-weight models such as DeepSeek-V3-0324 and Qwen3-235B-A22B using an identical scaffolding, offering a viable path toward building more capable autonomous agents for complex real-world problems based on open models.

Training von Software-Engineering-Agenten mit langem Kontext und Mehrfachinteraktionen durch Reinforcement Learning

Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning

papers.abstract

Support