CooperBench: Por qué los agentes de programación aún no pueden ser tus compañeros de equipo

Resumen

La resolución de conflictos en equipos requiere no solo competencia específica en la tarea, sino también inteligencia social para encontrar puntos en común y construir consenso. A medida que los agentes de IA colaboran cada vez más en trabajos complejos, deben desarrollar capacidades de coordinación para funcionar como compañeros de equipo efectivos. Sin embargo, planteamos la hipótesis de que los agentes actuales carecen de estas capacidades. Para probarlo, presentamos CooperBench, un benchmark con más de 600 tareas de codificación colaborativa en 12 bibliotecas y 4 lenguajes de programación. Cada tarea asigna a dos agentes diferentes características que pueden implementarse de forma independiente, pero que pueden entrar en conflicto sin una coordinación adecuada. Las tareas se basan en repositorios reales de código abierto con pruebas escritas por expertos. Al evaluar a los agentes de codificación más avanzados, observamos la maldición de la coordinación: los agentes logran tasas de éxito en promedio un 30% más bajas cuando trabajan juntos en comparación con realizar ambas tareas individualmente. Esto contrasta marcadamente con los equipos humanos, donde agregar compañeros de equipo generalmente mejora la productividad. Nuestro análisis revela tres problemas clave: (1) los canales de comunicación se saturan con mensajes vagos, inoportunos e inexactos; (2) incluso con comunicación efectiva, los agentes se desvían de sus compromisos; y (3) los agentes a menudo mantienen expectativas incorrectas sobre los planes y la comunicación de los demás. A través de simulaciones a gran escala, también observamos comportamientos emergentes de coordinación raros pero interesantes, incluida la división de roles, la división de recursos y la negociación. Nuestra investigación presenta un nuevo benchmark para la codificación colaborativa y aboga por un cambio desde la búsqueda de la capacidad individual del agente hacia el desarrollo de la inteligencia social.

English

Resolving team conflicts requires not only task-specific competence, but also social intelligence to find common ground and build consensus. As AI agents increasingly collaborate on complex work, they must develop coordination capabilities to function as effective teammates. Yet we hypothesize that current agents lack these capabilities. To test this, we introduce CooperBench, a benchmark of over 600 collaborative coding tasks across 12 libraries in 4 programming languages. Each task assigns two agents different features that can be implemented independently but may conflict without proper coordination. Tasks are grounded in real open-source repositories with expert-written tests. Evaluating state-of-the-art coding agents, we observe the curse of coordination: agents achieve on average 30% lower success rates when working together compared to performing both tasks individually. This contrasts sharply with human teams, where adding teammates typically improves productivity. Our analysis reveals three key issues: (1) communication channels become jammed with vague, ill-timed, and inaccurate messages; (2) even with effective communication, agents deviate from their commitments; and (3) agents often hold incorrect expectations about others' plans and communication. Through large-scale simulation, we also observe rare but interesting emergent coordination behavior including role division, resource division, and negotiation. Our research presents a novel benchmark for collaborative coding and calls for a shift from pursuing individual agent capability to developing social intelligence.

CooperBench: Por qué los agentes de programación aún no pueden ser tus compañeros de equipo

CooperBench: Why Coding Agents Cannot be Your Teammates Yet

Resumen

Support