Estratégias Eficazes para Agentes de Engenharia de Software Assíncronos

Resumo

Os agentes de IA tornaram-se cada vez mais capazes em tarefas isoladas de engenharia de software (SWE), como resolver problemas no GitHub. No entanto, tarefas de longo horizonte envolvendo múltiplas subtarefas interdependentes ainda representam desafios, tanto em termos de precisão quanto de conclusão oportuna. Uma abordagem natural para resolver essas tarefas de longo horizonte de maneira eficiente é a colaboração assíncrona multiagente, na qual vários agentes trabalham em diferentes partes da tarefa simultaneamente. Mas a aplicação eficaz de sistemas multiagente tem se mostrado surpreendentemente difícil: edições concorrentes por múltiplos agentes interferem umas com as outras, as dependências são difíceis de sincronizar e combinar progressos parciais em um todo coerente é desafiador. Por outro lado, os desenvolvedores humanos há muito dependem de infraestruturas de colaboração maduras para gerenciar esses desafios em grandes projetos de software. Inspirados por essas primitivas de colaboração, introduzimos o Delegamento Isolado Assíncrono Centralizado (CAID), um paradigma estruturado de coordenação multiagente baseado em três primitivas fundamentais de SWE: delegação centralizada de tarefas, execução assíncrona e espaços de trabalho isolados. O CAID constrói planos de tarefas conscientes de dependências por meio de um gerente central, executa subtarefas concorrentemente em espaços de trabalho isolados e consolida o progresso por meio de integração estruturada com verificação executável baseada em testes. Em avaliação empírica, descobrimos que o CAID melhora a precisão em 26,7% absoluto em relação às baselines de agente único em tarefas de reprodução de artigos (PaperBench) e 14,3% em tarefas de desenvolvimento de bibliotecas Python (Commit0). Por meio de análise sistemática, constatamos que o ramificar-e-combinar (branch-and-merge) é um mecanismo central de coordenação para colaboração multiagente, e que primitivas de SWE como git worktree, git commit e git merge permitem que ele seja realizado de maneira confiável e executável.

English

AI agents have become increasingly capable at isolated software engineering (SWE) tasks such as resolving issues on Github. Yet long-horizon tasks involving multiple interdependent subtasks still pose challenges both with respect to accuracy, and with respect to timely completion. A natural approach to solving these long-horizon tasks in a timely manner is asynchronous multi-agent collaboration, where multiple agents work on different parts of the task at the same time. But effective application of multi-agent systems has proven surprisingly difficult: concurrent edits by multiple agents interfere with each other, dependencies are difficult to synchronize, and combining partial progress into a coherent whole is challenging. On the other hand, human developers have long relied on mature collaboration infrastructure to manage these challenges in large software projects. Inspired by these collaboration primitives, we introduce Centralized Asynchronous Isolated Delegation (CAID), a structured multi-agent coordination paradigm grounded in three core SWE primitives: centralized task delegation, asynchronous execution, and isolated workspaces. CAID constructs dependency-aware task plans through a central manager, executes subtasks concurrently in isolated workspaces, and consolidates progress via structured integration with executable test-based verification. In empirical evaluation, we find that CAID improves accuracy over single-agent baselines by 26.7% absolute on paper reproduction tasks (PaperBench) and 14.3% on Python library development tasks (Commit0). Through systematic analysis, we find that branch-and-merge is a central coordination mechanism for multi-agent collaboration, and that SWE primitives such as git worktree, git commit, and git merge enable it to be realized in a reliable and executable manner.

Estratégias Eficazes para Agentes de Engenharia de Software Assíncronos

Effective Strategies for Asynchronous Software Engineering Agents

Resumo

Support