Addestramento di Agenti Software Engineering per Contesti Lunghi e Interazioni Multiple con Apprendimento per Rinforzo

Abstract

La ricerca sulle applicazioni del Reinforcement Learning (RL) ai Large Language Models (LLM) si è concentrata principalmente su problemi a turno singolo, come il ragionamento matematico o la generazione di codice in un'unica istanza. Sebbene questi problemi possano essere visti come MDP (Markov Decision Process) multi-turno a livello di token, questa visione corrisponde a un caso degenere di interazione multi-turno in cui l'ambiente non fornisce alcun feedback. Ciò contrasta con molti domini del mondo reale, come l'ingegneria del software (SWE), che richiedono interazioni multi-turno ricche con un ambiente dotato di stato che risponde a ogni azione con un'osservazione non banale. Per colmare questa lacuna, dimostriamo con successo l'applicazione del RL a questo regime generale. Utilizzando una versione modificata dell'algoritmo Decoupled Advantage Policy Optimization (DAPO), addestriamo un agente basato su Qwen2.5-72B-Instruct per risolvere compiti reali di ingegneria del software. Il nostro approccio aumenta il tasso di successo dell'agente sul benchmark SWE-bench Verified da una baseline del 20% con fine-tuning di rifiuto al 39%, senza fare affidamento su alcun modello insegnante. Su SWE-rebench, il nostro agente eguaglia o supera modelli open-weight leader come DeepSeek-V3-0324 e Qwen3-235B-A22B utilizzando un'impalcatura identica, offrendo un percorso praticabile verso la costruzione di agenti autonomi più capaci per problemi complessi del mondo reale basati su modelli open.

English

Research on applications of Reinforcement Learning (RL) to Large Language Models (LLMs) has mostly been focused on single-turn problems, such as mathematical reasoning or single-shot code generation. While these problems can be viewed as token-level multi-turn MDPs, this view corresponds to a degenerate case of multi-turn interaction where the environment provides no feedback. This contrasts with many real-world domains, such as software engineering (SWE), which require rich multi-turn interactions with a stateful environment that responds to each action with a non-trivial observation. To bridge this gap, we demonstrate the successful application of RL to this general regime. Using a modified Decoupled Advantage Policy Optimization (DAPO) algorithm, we train an agent based on Qwen2.5-72B-Instruct to solve real-world software engineering tasks. Our approach increases the agent's success rate on the SWE-bench Verified benchmark from a 20% rejection fine-tuned baseline to 39%, without relying on any teacher models. On SWE-rebench, our agent matches or outperforms leading open-weight models such as DeepSeek-V3-0324 and Qwen3-235B-A22B using an identical scaffolding, offering a viable path toward building more capable autonomous agents for complex real-world problems based on open models.

Addestramento di Agenti Software Engineering per Contesti Lunghi e Interazioni Multiple con Apprendimento per Rinforzo

Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning

Abstract

Support