Wirksame Strategien für asynchrone Softwareentwicklungsagenten

Zusammenfassung

KI-Agenten sind zunehmend fähig in isolierten Softwareentwicklungsaufgaben, wie etwa dem Beheben von Issues auf GitHub. Dennoch stellen langfristige Aufgaben, die mehrere voneinander abhängige Teilaufgaben umfassen, nach wie vor Herausforderungen dar – sowohl in Bezug auf die Genauigkeit als auch auf die termingerechte Fertigstellung. Ein natürlicher Ansatz zur zeitnahen Bewältigung dieser langfristigen Aufgaben ist die asynchrone Multi-Agenten-Kollaboration, bei der mehrere Agenten gleichzeitig an verschiedenen Teilen der Aufgabe arbeiten. Die effektive Anwendung von Multi-Agenten-Systemen hat sich jedoch als überraschend schwierig erwiesen: Gleichzeitige Bearbeitungen durch mehrere Agenten interferieren miteinander, Abhängigkeiten sind schwer zu synchronisieren, und die Integration von Teilergebnissen zu einem kohärenten Ganzen ist anspruchsvoll. Menschliche Entwickler hingegen stützen sich seit langem auf eine ausgereifte Kollaborationsinfrastruktur, um diese Herausforderungen in großen Softwareprojekten zu bewältigen. Inspiriert durch diese Kollaborationsprimitiven führen wir Centralized Asynchronous Isolated Delegation (CAID) ein, ein strukturiertes Multi-Agenten-Koordinationsparadigma, das auf drei zentralen SWE-Primitiven basiert: zentralisierte Aufgabendelegation, asynchrone Ausführung und isolierte Arbeitsbereiche. CAID erstellt abhängigkeitsbewusste Aufgabenpläne durch einen zentralen Manager, führt Teilaufgaben parallel in isolierten Arbeitsbereichen aus und konsolidiert die Fortschritte durch eine strukturierte Integration mit ausführbarer, testbasierter Verifikation. In empirischen Auswertungen stellen wir fest, dass CAID die Genauigkeit im Vergleich zu Single-Agent-Baselines bei Aufgaben zur Reproduktion von wissenschaftlichen Arbeiten (PaperBench) um 26,7 Prozentpunkte absolut und bei Python-Bibliotheksentwicklungsaufgaben (Commit0) um 14,3 Prozentpunkte absolut verbessert. Durch systematische Analysen zeigen wir, dass Branch-and-Merge ein zentraler Koordinationsmechanismus für die Multi-Agenten-Kollaboration ist und dass SWE-Primitive wie git worktree, git commit und git merge es ermöglichen, diesen auf zuverlässige und ausführbare Weise umzusetzen.

English

AI agents have become increasingly capable at isolated software engineering (SWE) tasks such as resolving issues on Github. Yet long-horizon tasks involving multiple interdependent subtasks still pose challenges both with respect to accuracy, and with respect to timely completion. A natural approach to solving these long-horizon tasks in a timely manner is asynchronous multi-agent collaboration, where multiple agents work on different parts of the task at the same time. But effective application of multi-agent systems has proven surprisingly difficult: concurrent edits by multiple agents interfere with each other, dependencies are difficult to synchronize, and combining partial progress into a coherent whole is challenging. On the other hand, human developers have long relied on mature collaboration infrastructure to manage these challenges in large software projects. Inspired by these collaboration primitives, we introduce Centralized Asynchronous Isolated Delegation (CAID), a structured multi-agent coordination paradigm grounded in three core SWE primitives: centralized task delegation, asynchronous execution, and isolated workspaces. CAID constructs dependency-aware task plans through a central manager, executes subtasks concurrently in isolated workspaces, and consolidates progress via structured integration with executable test-based verification. In empirical evaluation, we find that CAID improves accuracy over single-agent baselines by 26.7% absolute on paper reproduction tasks (PaperBench) and 14.3% on Python library development tasks (Commit0). Through systematic analysis, we find that branch-and-merge is a central coordination mechanism for multi-agent collaboration, and that SWE primitives such as git worktree, git commit, and git merge enable it to be realized in a reliable and executable manner.

Wirksame Strategien für asynchrone Softwareentwicklungsagenten

Effective Strategies for Asynchronous Software Engineering Agents

Zusammenfassung

Support