CooperBench: Por que os Agentes de Codificação Ainda Não Podem Ser Seus Colegas de Equipe

Resumo

A resolução de conflitos em equipas requer não apenas competência técnica específica, mas também inteligência social para encontrar pontos comuns e construir consenso. À medida que os agentes de IA colaboram cada vez mais em trabalhos complexos, eles devem desenvolver capacidades de coordenação para funcionarem como colegas eficazes. No entanto, hipotetizamos que os agentes atuais carecem dessas capacidades. Para testar isto, introduzimos o CooperBench, um benchmark com mais de 600 tarefas de programação colaborativa em 12 bibliotecas e 4 linguagens de programação. Cada tarefa atribui a dois agentes funcionalidades diferentes que podem ser implementadas de forma independente, mas que podem entrar em conflito sem uma coordenação adequada. As tarefas estão ancoradas em repositórios reais de código aberto com testes escritos por especialistas. Ao avaliar os agentes de programação mais avançados, observamos a *maldição da coordenação*: os agentes atingem, em média, taxas de sucesso 30% mais baixas ao trabalharem em conjunto, em comparação com a execução individual de ambas as tarefas. Este resultado contrasta fortemente com as equipas humanas, onde a adição de membros geralmente aumenta a produtividade. A nossa análise revela três problemas principais: (1) os canais de comunicação ficam congestionados com mensagens vagas, inoportunas e imprecisas; (2) mesmo com comunicação eficaz, os agentes desviam-se dos seus compromissos; e (3) os agentes frequentemente mantêm expetativas incorretas sobre os planos e a comunicação dos outros. Através de simulação em larga escala, também observámos comportamentos emergentes de coordenação raros, mas interessantes, incluindo divisão de funções, divisão de recursos e negociação. A nossa investigação apresenta um novo benchmark para programação colaborativa e apela a uma mudança de foco: da busca pela capacidade individual do agente para o desenvolvimento da inteligência social.

English

Resolving team conflicts requires not only task-specific competence, but also social intelligence to find common ground and build consensus. As AI agents increasingly collaborate on complex work, they must develop coordination capabilities to function as effective teammates. Yet we hypothesize that current agents lack these capabilities. To test this, we introduce CooperBench, a benchmark of over 600 collaborative coding tasks across 12 libraries in 4 programming languages. Each task assigns two agents different features that can be implemented independently but may conflict without proper coordination. Tasks are grounded in real open-source repositories with expert-written tests. Evaluating state-of-the-art coding agents, we observe the curse of coordination: agents achieve on average 30% lower success rates when working together compared to performing both tasks individually. This contrasts sharply with human teams, where adding teammates typically improves productivity. Our analysis reveals three key issues: (1) communication channels become jammed with vague, ill-timed, and inaccurate messages; (2) even with effective communication, agents deviate from their commitments; and (3) agents often hold incorrect expectations about others' plans and communication. Through large-scale simulation, we also observe rare but interesting emergent coordination behavior including role division, resource division, and negotiation. Our research presents a novel benchmark for collaborative coding and calls for a shift from pursuing individual agent capability to developing social intelligence.

CooperBench: Por que os Agentes de Codificação Ainda Não Podem Ser Seus Colegas de Equipe

CooperBench: Why Coding Agents Cannot be Your Teammates Yet

Resumo

Support