CooperBench: Почему кодирующие агенты пока не могут стать вашими напарниками

Аннотация

Разрешение командных конфликтов требует не только предметной компетентности, но и социального интеллекта для нахождения общего языка и выработки консенсуса. По мере того как ИИ-агенты все чаще совместно работают над сложными задачами, они должны развивать координационные способности, чтобы функционировать как эффективные члены команды. Однако мы выдвигаем гипотезу, что современные агенты лишены этих возможностей. Для проверки этого мы представляем CooperBench — набор из более чем 600 задач по совместному программированию, охватывающих 12 библиотек на 4 языках программирования. Каждая задача назначает двум агентам различные функции, которые можно реализовать независимо, но которые могут конфликтовать при отсутствии должной координации. Задачи основаны на реальных репозиториях с открытым исходным кодом с тестами, написанными экспертами. Оценивая передовые программные агенты, мы наблюдаем «проклятие координации»: при совместной работе агенты демонстрируют в среднем на 30% более низкий процент успеха по сравнению с выполнением обеих задач по отдельности. Это резко контрастирует с человеческими командами, где добавление участников обычно повышает продуктивность. Наш анализ выявляет три ключевые проблемы: (1) каналы коммуникации перегружаются расплывчатыми, несвоевременными и неточными сообщениями; (2) даже при эффективном общении агенты отклоняются от своих обязательств; (3) агенты часто имеют неверные ожидания относительно планов и коммуникации других. С помощью крупномасштабного моделирования мы также наблюдаем редкое, но интересное emergent-поведение координации, включая разделение ролей, распределение ресурсов и ведение переговоров. Наше исследование представляет новый эталон для оценки совместного программирования и призывает к смещению фокуса с развития индивидуальных способностей агентов на формирование социального интеллекта.

English

Resolving team conflicts requires not only task-specific competence, but also social intelligence to find common ground and build consensus. As AI agents increasingly collaborate on complex work, they must develop coordination capabilities to function as effective teammates. Yet we hypothesize that current agents lack these capabilities. To test this, we introduce CooperBench, a benchmark of over 600 collaborative coding tasks across 12 libraries in 4 programming languages. Each task assigns two agents different features that can be implemented independently but may conflict without proper coordination. Tasks are grounded in real open-source repositories with expert-written tests. Evaluating state-of-the-art coding agents, we observe the curse of coordination: agents achieve on average 30% lower success rates when working together compared to performing both tasks individually. This contrasts sharply with human teams, where adding teammates typically improves productivity. Our analysis reveals three key issues: (1) communication channels become jammed with vague, ill-timed, and inaccurate messages; (2) even with effective communication, agents deviate from their commitments; and (3) agents often hold incorrect expectations about others' plans and communication. Through large-scale simulation, we also observe rare but interesting emergent coordination behavior including role division, resource division, and negotiation. Our research presents a novel benchmark for collaborative coding and calls for a shift from pursuing individual agent capability to developing social intelligence.

CooperBench: Почему кодирующие агенты пока не могут стать вашими напарниками

CooperBench: Why Coding Agents Cannot be Your Teammates Yet

Аннотация

Support