Het trainen van software-engineeringagents met lange context en meerdere interacties met behulp van reinforcement learning

Samenvatting

Onderzoek naar de toepassing van Reinforcement Learning (RL) op Large Language Models (LLMs) heeft zich voornamelijk gericht op enkelvoudige problemen, zoals wiskundig redeneren of eenmalige codegeneratie. Hoewel deze problemen kunnen worden gezien als token-level multi-turn MDPs (Markov Decision Processes), komt dit overeen met een gedegenereerd geval van multi-turn interactie waarbij de omgeving geen feedback geeft. Dit staat in contrast met veel real-world domeinen, zoals software engineering (SWE), die rijke multi-turn interacties vereisen met een stateful omgeving die reageert op elke actie met een niet-triviale observatie. Om deze kloof te overbruggen, demonstreren we de succesvolle toepassing van RL op dit algemene regime. Met behulp van een aangepast Decoupled Advantage Policy Optimization (DAPO) algoritme trainen we een agent gebaseerd op Qwen2.5-72B-Instruct om real-world software engineering taken op te lossen. Onze aanpak verhoogt het slagingspercentage van de agent op de SWE-bench Verified benchmark van een 20% afgewezen fine-tuned baseline naar 39%, zonder te vertrouwen op enige teacher-modellen. Op SWE-rebench presteert onze agent gelijk aan of beter dan toonaangevende open-weight modellen zoals DeepSeek-V3-0324 en Qwen3-235B-A22B met een identieke scaffolding, wat een haalbare weg biedt naar het bouwen van capabelere autonome agents voor complexe real-world problemen op basis van open modellen.

English

Research on applications of Reinforcement Learning (RL) to Large Language Models (LLMs) has mostly been focused on single-turn problems, such as mathematical reasoning or single-shot code generation. While these problems can be viewed as token-level multi-turn MDPs, this view corresponds to a degenerate case of multi-turn interaction where the environment provides no feedback. This contrasts with many real-world domains, such as software engineering (SWE), which require rich multi-turn interactions with a stateful environment that responds to each action with a non-trivial observation. To bridge this gap, we demonstrate the successful application of RL to this general regime. Using a modified Decoupled Advantage Policy Optimization (DAPO) algorithm, we train an agent based on Qwen2.5-72B-Instruct to solve real-world software engineering tasks. Our approach increases the agent's success rate on the SWE-bench Verified benchmark from a 20% rejection fine-tuned baseline to 39%, without relying on any teacher models. On SWE-rebench, our agent matches or outperforms leading open-weight models such as DeepSeek-V3-0324 and Qwen3-235B-A22B using an identical scaffolding, offering a viable path toward building more capable autonomous agents for complex real-world problems based on open models.

Het trainen van software-engineeringagents met lange context en meerdere interacties met behulp van reinforcement learning

Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning

Samenvatting

Support