Addestramento di Agenti Software Engineering per Contesti Lunghi e Interazioni Multiple con Apprendimento per Rinforzo
Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning
August 5, 2025
Autori: Alexander Golubev, Maria Trofimova, Sergei Polezhaev, Ibragim Badertdinov, Maksim Nekrashevich, Anton Shevtsov, Simon Karasik, Sergey Abramov, Andrei Andriushchenko, Filipp Fisin, Sergei Skvortsov, Boris Yangel
cs.AI
Abstract
La ricerca sulle applicazioni del Reinforcement Learning (RL) ai Large Language Models (LLM) si è concentrata principalmente su problemi a turno singolo, come il ragionamento matematico o la generazione di codice in un'unica istanza. Sebbene questi problemi possano essere visti come MDP (Markov Decision Process) multi-turno a livello di token, questa visione corrisponde a un caso degenere di interazione multi-turno in cui l'ambiente non fornisce alcun feedback. Ciò contrasta con molti domini del mondo reale, come l'ingegneria del software (SWE), che richiedono interazioni multi-turno ricche con un ambiente dotato di stato che risponde a ogni azione con un'osservazione non banale.
Per colmare questa lacuna, dimostriamo con successo l'applicazione del RL a questo regime generale. Utilizzando una versione modificata dell'algoritmo Decoupled Advantage Policy Optimization (DAPO), addestriamo un agente basato su Qwen2.5-72B-Instruct per risolvere compiti reali di ingegneria del software. Il nostro approccio aumenta il tasso di successo dell'agente sul benchmark SWE-bench Verified da una baseline del 20% con fine-tuning di rifiuto al 39%, senza fare affidamento su alcun modello insegnante. Su SWE-rebench, il nostro agente eguaglia o supera modelli open-weight leader come DeepSeek-V3-0324 e Qwen3-235B-A22B utilizzando un'impalcatura identica, offrendo un percorso praticabile verso la costruzione di agenti autonomi più capaci per problemi complessi del mondo reale basati su modelli open.
English
Research on applications of Reinforcement Learning (RL) to Large Language
Models (LLMs) has mostly been focused on single-turn problems, such as
mathematical reasoning or single-shot code generation. While these problems can
be viewed as token-level multi-turn MDPs, this view corresponds to a degenerate
case of multi-turn interaction where the environment provides no feedback. This
contrasts with many real-world domains, such as software engineering (SWE),
which require rich multi-turn interactions with a stateful environment that
responds to each action with a non-trivial observation.
To bridge this gap, we demonstrate the successful application of RL to this
general regime. Using a modified Decoupled Advantage Policy Optimization (DAPO)
algorithm, we train an agent based on Qwen2.5-72B-Instruct to solve real-world
software engineering tasks. Our approach increases the agent's success rate on
the SWE-bench Verified benchmark from a 20% rejection fine-tuned baseline to
39%, without relying on any teacher models. On SWE-rebench, our agent matches
or outperforms leading open-weight models such as DeepSeek-V3-0324 and
Qwen3-235B-A22B using an identical scaffolding, offering a viable path toward
building more capable autonomous agents for complex real-world problems based
on open models.