Effectieve strategieën voor asynchrone software-engineeringagenten

Samenvatting

AI-agents zijn steeds beter geworden in geïsoleerde software-engineeringtaken, zoals het oplossen van problemen op GitHub. Toch vormen langetermijntaken met meerdere onderling afhankelijke deeltaken nog steeds een uitdaging, zowel wat betreft nauwkeurigheid als tijdige voltooiing. Een natuurlijke aanpak om deze langetermijntaken tijdig op te lossen is asynchrone multi-agent samenwerking, waarbij meerdere agents gelijktijdig aan verschillende delen van de taak werken. Maar effectieve toepassing van multi-agent systemen is verrassend moeilijk gebleken: gelijktijdige bewerkingen door meerdere agents storen elkaar, afhankelijkheden zijn moeilijk te synchroniseren en het combineren van gedeeltelijke vooruitgang tot een coherent geheel is uitdagend. Aan de andere kant hebben menselijke ontwikkelaars lange tijd vertrouwd op volwassen samenwerkingsinfrastructuur om deze uitdagingen in grote softwareprojecten te beheren. Geïnspireerd door deze samenwerkingsprimitieven introduceren wij *Centralized Asynchronous Isolated Delegation* (CAID), een gestructureerd multi-agent coördinatieparadigma gebaseerd op drie kern-SWE-primitieven: gecentraliseerde taakdelegatie, asynchrone uitvoering en geïsoleerde werkruimten. CAID construeert afhankelijkheidsbewuste taakplannen via een centrale manager, voert deeltaken gelijktijdig uit in geïsoleerde werkruimten en consolideert de voortgang via gestructureerde integratie met uitvoerbare testgebaseerde verificatie. In empirische evaluatie constateren we dat CAID de nauwkeurigheid verbetert ten opzichte van single-agent baseline-systemen met 26,7% absoluut bij taken voor het reproduceren van wetenschappelijke artikelen (PaperBench) en met 14,3% bij Python-bibliotheekontwikkelingstaken (Commit0). Door systematische analyse stellen we vast dat *branch-and-merge* een centraal coördinatiemechanisme is voor multi-agent samenwerking, en dat SWE-primitieven zoals `git worktree`, `git commit` en `git merge` het mogelijk maken dit op een betrouwbare en uitvoerbare manier te realiseren.

English

AI agents have become increasingly capable at isolated software engineering (SWE) tasks such as resolving issues on Github. Yet long-horizon tasks involving multiple interdependent subtasks still pose challenges both with respect to accuracy, and with respect to timely completion. A natural approach to solving these long-horizon tasks in a timely manner is asynchronous multi-agent collaboration, where multiple agents work on different parts of the task at the same time. But effective application of multi-agent systems has proven surprisingly difficult: concurrent edits by multiple agents interfere with each other, dependencies are difficult to synchronize, and combining partial progress into a coherent whole is challenging. On the other hand, human developers have long relied on mature collaboration infrastructure to manage these challenges in large software projects. Inspired by these collaboration primitives, we introduce Centralized Asynchronous Isolated Delegation (CAID), a structured multi-agent coordination paradigm grounded in three core SWE primitives: centralized task delegation, asynchronous execution, and isolated workspaces. CAID constructs dependency-aware task plans through a central manager, executes subtasks concurrently in isolated workspaces, and consolidates progress via structured integration with executable test-based verification. In empirical evaluation, we find that CAID improves accuracy over single-agent baselines by 26.7% absolute on paper reproduction tasks (PaperBench) and 14.3% on Python library development tasks (Commit0). Through systematic analysis, we find that branch-and-merge is a central coordination mechanism for multi-agent collaboration, and that SWE primitives such as git worktree, git commit, and git merge enable it to be realized in a reliable and executable manner.

Effectieve strategieën voor asynchrone software-engineeringagenten

Effective Strategies for Asynchronous Software Engineering Agents

Samenvatting

Support