ChatPaper.aiChatPaper

Эффективные стратегии для асинхронных агентов программной инженерии

Effective Strategies for Asynchronous Software Engineering Agents

March 23, 2026
Авторы: Jiayi Geng, Graham Neubig
cs.AI

Аннотация

Искусственные интеллектуальные агенты демонстрируют растущую эффективность в решении изолированных задач программной инженерии, таких как исправление проблем на GitHub. Однако долгосрочные задачи, включающие множество взаимозависимых подзадач, по-прежнему представляют сложности как с точки зрения точности, так и своевременного выполнения. Естественным подходом к решению таких задач в сжатые сроки является асинхронное многоАгентное collaboration, при котором несколько агентов работают над разными частями задачи одновременно. Однако эффективное применение многоагентных систем оказалось на удивление трудным: параллельные правки нескольких агентов конфликтуют друг с другом, зависимости сложно синхронизировать, а объединение частичных результатов в целостное решение представляет проблему. С другой стороны, разработчики-люди давно используют зрелую инфраструктуру collaboration для управления этими challenges в крупных программных проектах. Вдохновляясь этими примитивами collaboration, мы представляем Централизованную Асинхронную Изолированную Делегацию (ЦАИД) — структурированную парадигму координации множества агентов, основанную на трёх ключевых примитивах программной инженерии: централизованное делегирование задач, асинхронное выполнение и изолированные рабочие пространства. ЦАИД формирует учитывающие зависимости планы задач через центральный менеджер, выполняет подзадачи параллельно в изолированных пространствах и консолидирует прогресс посредством структурированной интеграции с выполняемой проверкой на основе тестов. В эмпирической оценке мы установили, что ЦАИД повышает точность на 26,7% абсолютных пунктов по сравнению с одноагентными базовыми уровнями в задачах воспроизведения научных статей (PaperBench) и на 14,3% в задачах разработки Python-библиотек (Commit0). Системный анализ показывает, что ветвление и слияние являются центральным механизмом координации для многоагентного collaboration, а примитивы программной инженерии, такие как git worktree, git commit и git merge, позволяют реализовать его надежным и исполняемым образом.
English
AI agents have become increasingly capable at isolated software engineering (SWE) tasks such as resolving issues on Github. Yet long-horizon tasks involving multiple interdependent subtasks still pose challenges both with respect to accuracy, and with respect to timely completion. A natural approach to solving these long-horizon tasks in a timely manner is asynchronous multi-agent collaboration, where multiple agents work on different parts of the task at the same time. But effective application of multi-agent systems has proven surprisingly difficult: concurrent edits by multiple agents interfere with each other, dependencies are difficult to synchronize, and combining partial progress into a coherent whole is challenging. On the other hand, human developers have long relied on mature collaboration infrastructure to manage these challenges in large software projects. Inspired by these collaboration primitives, we introduce Centralized Asynchronous Isolated Delegation (CAID), a structured multi-agent coordination paradigm grounded in three core SWE primitives: centralized task delegation, asynchronous execution, and isolated workspaces. CAID constructs dependency-aware task plans through a central manager, executes subtasks concurrently in isolated workspaces, and consolidates progress via structured integration with executable test-based verification. In empirical evaluation, we find that CAID improves accuracy over single-agent baselines by 26.7% absolute on paper reproduction tasks (PaperBench) and 14.3% on Python library development tasks (Commit0). Through systematic analysis, we find that branch-and-merge is a central coordination mechanism for multi-agent collaboration, and that SWE primitives such as git worktree, git commit, and git merge enable it to be realized in a reliable and executable manner.
PDF41March 25, 2026