Strategie Efficaci per Agenti di Ingegneria del Software Asincroni
Effective Strategies for Asynchronous Software Engineering Agents
March 23, 2026
Autori: Jiayi Geng, Graham Neubig
cs.AI
Abstract
Gli agenti IA stanno diventando sempre più capaci nello svolgere compiti isolati di ingegneria del software (SWE), come la risoluzione di issue su GitHub. Tuttavia, i task a lungo termine che coinvolgono molteplici sottocompiti interdipendenti presentano ancora sfide sia in termini di accuratezza che di completamento tempestivo. Un approccio naturale per risolvere questi compiti a lungo orizzonte in modo tempestivo è la collaborazione asincrona multi-agente, in cui più agenti lavorano su diverse parti del task contemporaneamente. Tuttavia, l'applicazione efficace di sistemi multi-agente si è rivelata sorprendentemente difficile: le modifiche concorrenti di più agenti interferiscono tra loro, le dipendenze sono difficili da sincronizzare e combinare progressi parziali in un tutto coerente è impegnativo. D'altro canto, gli sviluppatori umani si sono a lungo affidati a infrastrutture di collaborazione mature per gestire queste sfide nei grandi progetti software. Ispirati da questi primitivi di collaborazione, introduciamo la Delegazione Isolata Asincrona Centralizzata (CAID), un paradigma strutturato di coordinamento multi-agente basato su tre primitivi fondamentali dello SWE: delega centralizzata dei task, esecuzione asincrona e workspace isolati. CAID costruisce piani di lavoro consapevoli delle dipendenze attraverso un manager centrale, esegue i sottotask concorrentemente in workspace isolati e consolida i progressi tramite integrazione strutturata con verifica eseguibile basata su test. Nella valutazione empirica, riscontriamo che CAID migliora l'accuratezza rispetto ai baseline ad agente singolo del 26,7% assoluto su task di riproduzione di paper (PaperBench) e del 14,3% su task di sviluppo di librerie Python (Commit0). Attraverso un'analisi sistematica, scopriamo che il branch-and-merge è un meccanismo di coordinamento centrale per la collaborazione multi-agente e che i primitivi SWE come git worktree, git commit e git merge ne consentono la realizzazione in modo affidabile ed eseguibile.
English
AI agents have become increasingly capable at isolated software engineering (SWE) tasks such as resolving issues on Github. Yet long-horizon tasks involving multiple interdependent subtasks still pose challenges both with respect to accuracy, and with respect to timely completion. A natural approach to solving these long-horizon tasks in a timely manner is asynchronous multi-agent collaboration, where multiple agents work on different parts of the task at the same time. But effective application of multi-agent systems has proven surprisingly difficult: concurrent edits by multiple agents interfere with each other, dependencies are difficult to synchronize, and combining partial progress into a coherent whole is challenging. On the other hand, human developers have long relied on mature collaboration infrastructure to manage these challenges in large software projects. Inspired by these collaboration primitives, we introduce Centralized Asynchronous Isolated Delegation (CAID), a structured multi-agent coordination paradigm grounded in three core SWE primitives: centralized task delegation, asynchronous execution, and isolated workspaces. CAID constructs dependency-aware task plans through a central manager, executes subtasks concurrently in isolated workspaces, and consolidates progress via structured integration with executable test-based verification. In empirical evaluation, we find that CAID improves accuracy over single-agent baselines by 26.7% absolute on paper reproduction tasks (PaperBench) and 14.3% on Python library development tasks (Commit0). Through systematic analysis, we find that branch-and-merge is a central coordination mechanism for multi-agent collaboration, and that SWE primitives such as git worktree, git commit, and git merge enable it to be realized in a reliable and executable manner.