CooperBench: Perché gli Agenti di Programmazione Non Possono Ancora Essere i Tuoi Compagni di Squadra

Abstract

Risolvere i conflitti di team richiede non solo competenze specifiche del compito, ma anche intelligenza sociale per trovare un terreno comune e costruire un consenso. Poiché gli agenti di IA collaborano sempre più spesso in lavori complessi, essi devono sviluppare capacità di coordinamento per funzionare come membri efficaci di una squadra. Tuttavia, ipotizziamo che gli agenti attuali siano privi di queste capacità. Per testare ciò, introduciamo CooperBench, un benchmark composto da oltre 600 compiti di programmazione collaborativa relativi a 12 librerie in 4 linguaggi di programmazione. A ciascun compito vengono assegnati due agenti con diverse funzionalità che possono essere implementate in modo indipendente, ma che potrebbero entrare in conflitto senza un adeguato coordinamento. I compiti sono basati su repository open-source reali con test scritti da esperti. Valutando gli agenti di programmazione all'avanguardia, osserviamo la maledizione del coordinamento: gli agenti raggiungono in media tassi di successo inferiori del 30% quando lavorano insieme, rispetto all'esecuzione di entrambi i compiti individualmente. Ciò contrasta nettamente con i team umani, dove l'aggiunta di membri al team tipicamente migliora la produttività. La nostra analisi rivela tre problemi chiave: (1) i canali di comunicazione si intasano con messaggi vaghi, inopportuni e imprecisi; (2) anche con una comunicazione efficace, gli agenti deviano dai propri impegni; e (3) gli agenti spesso nutrono aspettative errate riguardo ai piani e alla comunicazione altrui. Attraverso simulazioni su larga scala, osserviamo anche comportamenti emergenti di coordinamento rari ma interessanti, tra cui la divisione dei ruoli, la divisione delle risorse e la negoziazione. La nostra ricerca presenta un nuovo benchmark per la programmazione collaborativa e invoca un cambiamento di prospettiva: dal perseguimento della capacità del singolo agente allo sviluppo dell'intelligenza sociale.

English

Resolving team conflicts requires not only task-specific competence, but also social intelligence to find common ground and build consensus. As AI agents increasingly collaborate on complex work, they must develop coordination capabilities to function as effective teammates. Yet we hypothesize that current agents lack these capabilities. To test this, we introduce CooperBench, a benchmark of over 600 collaborative coding tasks across 12 libraries in 4 programming languages. Each task assigns two agents different features that can be implemented independently but may conflict without proper coordination. Tasks are grounded in real open-source repositories with expert-written tests. Evaluating state-of-the-art coding agents, we observe the curse of coordination: agents achieve on average 30% lower success rates when working together compared to performing both tasks individually. This contrasts sharply with human teams, where adding teammates typically improves productivity. Our analysis reveals three key issues: (1) communication channels become jammed with vague, ill-timed, and inaccurate messages; (2) even with effective communication, agents deviate from their commitments; and (3) agents often hold incorrect expectations about others' plans and communication. Through large-scale simulation, we also observe rare but interesting emergent coordination behavior including role division, resource division, and negotiation. Our research presents a novel benchmark for collaborative coding and calls for a shift from pursuing individual agent capability to developing social intelligence.

CooperBench: Perché gli Agenti di Programmazione Non Possono Ancora Essere i Tuoi Compagni di Squadra

CooperBench: Why Coding Agents Cannot be Your Teammates Yet

Abstract

Support