CooperBench : Pourquoi les agents de codage ne peuvent pas encore être vos coéquipiers

papers.abstract

Résoudre les conflits d'équipe nécessite non seulement des compétences techniques spécifiques, mais aussi une intelligence sociale pour trouver un terrain d'entente et bâtir un consensus. Alors que les agents IA collaborent de plus en plus sur des travaux complexes, ils doivent développer des capacités de coordination pour fonctionner comme des coéquipiers efficaces. Pourtant, nous émettons l'hypothèse que les agents actuels manquent de ces capacités. Pour le vérifier, nous présentons CooperBench, un benchmark de plus de 600 tâches de programmation collaborative couvrant 12 bibliothèques dans 4 langages de programmation. Chaque tâche assigne à deux agents des fonctionnalités différentes qui peuvent être implémentées indépendamment mais peuvent entrer en conflit sans une coordination adéquate. Les tâches sont ancrées dans de véritables dépôts open-source avec des tests rédigés par des experts. En évaluant les agents de programmation les plus performants, nous observons le fléau de la coordination : les agents obtiennent en moyenne des taux de réussite 30 % inférieurs lorsqu'ils travaillent ensemble par rapport à l'exécution individuelle des deux tâches. Ce constat contraste fortement avec les équipes humaines, où l'ajout de coéquipiers améliore généralement la productivité. Notre analyse révèle trois problèmes clés : (1) les canaux de communication sont engorgés par des messages vagues, mal synchronisés et inexacts ; (2) même avec une communication efficace, les agents s'écartent de leurs engagements ; et (3) les agents ont souvent des attentes incorrectes concernant les plans et la communication des autres. Par le biais de simulations à grande échelle, nous observons également des comportements de coordination émergents rares mais intéressants, incluant la division des rôles, la répartition des ressources et la négociation. Notre recherche présente un nouveau benchmark pour la programmation collaborative et appelle à une transition : plutôt que de viser les capacités individuelles des agents, il faut développer leur intelligence sociale.

English

Resolving team conflicts requires not only task-specific competence, but also social intelligence to find common ground and build consensus. As AI agents increasingly collaborate on complex work, they must develop coordination capabilities to function as effective teammates. Yet we hypothesize that current agents lack these capabilities. To test this, we introduce CooperBench, a benchmark of over 600 collaborative coding tasks across 12 libraries in 4 programming languages. Each task assigns two agents different features that can be implemented independently but may conflict without proper coordination. Tasks are grounded in real open-source repositories with expert-written tests. Evaluating state-of-the-art coding agents, we observe the curse of coordination: agents achieve on average 30% lower success rates when working together compared to performing both tasks individually. This contrasts sharply with human teams, where adding teammates typically improves productivity. Our analysis reveals three key issues: (1) communication channels become jammed with vague, ill-timed, and inaccurate messages; (2) even with effective communication, agents deviate from their commitments; and (3) agents often hold incorrect expectations about others' plans and communication. Through large-scale simulation, we also observe rare but interesting emergent coordination behavior including role division, resource division, and negotiation. Our research presents a novel benchmark for collaborative coding and calls for a shift from pursuing individual agent capability to developing social intelligence.

CooperBench : Pourquoi les agents de codage ne peuvent pas encore être vos coéquipiers

CooperBench: Why Coding Agents Cannot be Your Teammates Yet

papers.abstract

Support