Entrenamiento de Agentes de Ingeniería de Software de Contexto Largo y Múltiples Turnos con Aprendizaje por Refuerzo
Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning
August 5, 2025
Autores: Alexander Golubev, Maria Trofimova, Sergei Polezhaev, Ibragim Badertdinov, Maksim Nekrashevich, Anton Shevtsov, Simon Karasik, Sergey Abramov, Andrei Andriushchenko, Filipp Fisin, Sergei Skvortsov, Boris Yangel
cs.AI
Resumen
La investigación sobre las aplicaciones del Aprendizaje por Refuerzo (RL, por sus siglas en inglés) a los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) se ha centrado principalmente en problemas de un solo turno, como el razonamiento matemático o la generación de código en una sola iteración. Aunque estos problemas pueden verse como MDPs (Procesos de Decisión de Markov) de múltiples turnos a nivel de tokens, esta perspectiva corresponde a un caso degenerado de interacción de múltiples turnos en el que el entorno no proporciona retroalimentación. Esto contrasta con muchos dominios del mundo real, como la ingeniería de software (SWE, por sus siglas en inglés), que requieren interacciones ricas de múltiples turnos con un entorno con estado que responde a cada acción con una observación no trivial.
Para cerrar esta brecha, demostramos la aplicación exitosa de RL a este régimen general. Utilizando una versión modificada del algoritmo de Optimización de Política de Ventaja Desacoplada (DAPO, por sus siglas en inglés), entrenamos un agente basado en Qwen2.5-72B-Instruct para resolver tareas reales de ingeniería de software. Nuestro enfoque aumenta la tasa de éxito del agente en el benchmark SWE-bench Verified desde un 20% de rechazo en un modelo ajustado fino de referencia hasta un 39%, sin depender de ningún modelo maestro. En SWE-rebench, nuestro agente iguala o supera a modelos líderes de peso abierto como DeepSeek-V3-0324 y Qwen3-235B-A22B utilizando un andamiaje idéntico, ofreciendo un camino viable hacia la construcción de agentes autónomos más capaces para problemas complejos del mundo real basados en modelos abiertos.
English
Research on applications of Reinforcement Learning (RL) to Large Language
Models (LLMs) has mostly been focused on single-turn problems, such as
mathematical reasoning or single-shot code generation. While these problems can
be viewed as token-level multi-turn MDPs, this view corresponds to a degenerate
case of multi-turn interaction where the environment provides no feedback. This
contrasts with many real-world domains, such as software engineering (SWE),
which require rich multi-turn interactions with a stateful environment that
responds to each action with a non-trivial observation.
To bridge this gap, we demonstrate the successful application of RL to this
general regime. Using a modified Decoupled Advantage Policy Optimization (DAPO)
algorithm, we train an agent based on Qwen2.5-72B-Instruct to solve real-world
software engineering tasks. Our approach increases the agent's success rate on
the SWE-bench Verified benchmark from a 20% rejection fine-tuned baseline to
39%, without relying on any teacher models. On SWE-rebench, our agent matches
or outperforms leading open-weight models such as DeepSeek-V3-0324 and
Qwen3-235B-A22B using an identical scaffolding, offering a viable path toward
building more capable autonomous agents for complex real-world problems based
on open models.