Treinamento de Agentes de Engenharia de Software de Contexto Longo e Múltiplas Interações com Aprendizado por Reforço

Resumo

A pesquisa sobre aplicações de Aprendizado por Reforço (RL) em Modelos de Linguagem de Grande Escala (LLMs) tem se concentrado principalmente em problemas de turno único, como raciocínio matemático ou geração de código em uma única etapa. Embora esses problemas possam ser vistos como MDPs de múltiplos turnos no nível de token, essa visão corresponde a um caso degenerado de interação de múltiplos turnos em que o ambiente não fornece feedback. Isso contrasta com muitos domínios do mundo real, como engenharia de software (SWE), que exigem interações ricas de múltiplos turnos com um ambiente com estado que responde a cada ação com uma observação não trivial. Para preencher essa lacuna, demonstramos a aplicação bem-sucedida de RL a esse regime geral. Usando uma versão modificada do algoritmo Decoupled Advantage Policy Optimization (DAPO), treinamos um agente baseado no Qwen2.5-72B-Instruct para resolver tarefas reais de engenharia de software. Nossa abordagem aumenta a taxa de sucesso do agente no benchmark SWE-bench Verified de uma linha de base ajustada por rejeição de 20% para 39%, sem depender de nenhum modelo professor. No SWE-rebench, nosso agente iguala ou supera modelos de peso aberto líderes, como DeepSeek-V3-0324 e Qwen3-235B-A22B, usando um suporte idêntico, oferecendo um caminho viável para a construção de agentes autônomos mais capazes para problemas complexos do mundo real com base em modelos abertos.

English

Research on applications of Reinforcement Learning (RL) to Large Language Models (LLMs) has mostly been focused on single-turn problems, such as mathematical reasoning or single-shot code generation. While these problems can be viewed as token-level multi-turn MDPs, this view corresponds to a degenerate case of multi-turn interaction where the environment provides no feedback. This contrasts with many real-world domains, such as software engineering (SWE), which require rich multi-turn interactions with a stateful environment that responds to each action with a non-trivial observation. To bridge this gap, we demonstrate the successful application of RL to this general regime. Using a modified Decoupled Advantage Policy Optimization (DAPO) algorithm, we train an agent based on Qwen2.5-72B-Instruct to solve real-world software engineering tasks. Our approach increases the agent's success rate on the SWE-bench Verified benchmark from a 20% rejection fine-tuned baseline to 39%, without relying on any teacher models. On SWE-rebench, our agent matches or outperforms leading open-weight models such as DeepSeek-V3-0324 and Qwen3-235B-A22B using an identical scaffolding, offering a viable path toward building more capable autonomous agents for complex real-world problems based on open models.

Treinamento de Agentes de Engenharia de Software de Contexto Longo e Múltiplas Interações com Aprendizado por Reforço

Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning

Resumo

Support