CooperBench: Waarom Codeeragentschappen Nog Geen Teamgenoten Kunnen Zijn

Samenvatting

Het oplossen van teamconflicten vereist niet alleen taakspecifieke competentie, maar ook sociale intelligentie om gemeenschappelijke grond te vinden en consensus op te bouwen. Naarmate AI-agenten steeds meer samenwerken aan complex werk, moeten ze coördinatievaardigheden ontwikkelen om als effectieve teamleden te functioneren. Toch veronderstellen we dat huidige agenten over deze vaardigheden beschikken. Om dit te testen, introduceren we CooperBench, een benchmark met meer dan 600 collaboratieve codeertaken verspreid over 12 bibliotheken in 4 programmeertalen. Elke taak wijst twee agenten verschillende functies toe die onafhankelijk geïmplementeerd kunnen worden, maar kunnen conflicteren zonder juiste coördinatie. Taken zijn gebaseerd op echte open-source repositories met expertgeschreven tests. Bij evaluatie van state-of-the-art coderingsagenten observeren we de vloek van coördinatie: agenten behalen gemiddeld 30% lagere slagingspercentages bij samenwerking vergeleken met het individueel uitvoeren van beide taken. Dit staat in schril contrast met menselijke teams, waar het toevoegen van teamleden doorgaans de productiviteit verhoogt. Onze analyse onthult drie kernproblemen: (1) communicatiekanalen verstoppen met vage, slecht getimede en onnauwkeurige berichten; (2) zelfs met effectieve communicatie wijken agenten af van hun toezeggingen; en (3) agenten hebben vaak incorrecte verwachtingen over andermans plannen en communicatie. Via grootschalige simulatie observeren we ook zeldzaam maar interessant emergent coördinatiegedrag, waaronder rolverdeling, resourceverdeling en onderhandeling. Ons onderzoek presenteert een nieuwe benchmark voor collaboratief coderen en pleit voor een verschuiving van het nastreven van individuele agentcapaciteit naar het ontwikkelen van sociale intelligentie.

English

Resolving team conflicts requires not only task-specific competence, but also social intelligence to find common ground and build consensus. As AI agents increasingly collaborate on complex work, they must develop coordination capabilities to function as effective teammates. Yet we hypothesize that current agents lack these capabilities. To test this, we introduce CooperBench, a benchmark of over 600 collaborative coding tasks across 12 libraries in 4 programming languages. Each task assigns two agents different features that can be implemented independently but may conflict without proper coordination. Tasks are grounded in real open-source repositories with expert-written tests. Evaluating state-of-the-art coding agents, we observe the curse of coordination: agents achieve on average 30% lower success rates when working together compared to performing both tasks individually. This contrasts sharply with human teams, where adding teammates typically improves productivity. Our analysis reveals three key issues: (1) communication channels become jammed with vague, ill-timed, and inaccurate messages; (2) even with effective communication, agents deviate from their commitments; and (3) agents often hold incorrect expectations about others' plans and communication. Through large-scale simulation, we also observe rare but interesting emergent coordination behavior including role division, resource division, and negotiation. Our research presents a novel benchmark for collaborative coding and calls for a shift from pursuing individual agent capability to developing social intelligence.

CooperBench: Waarom Codeeragentschappen Nog Geen Teamgenoten Kunnen Zijn

CooperBench: Why Coding Agents Cannot be Your Teammates Yet

Samenvatting

Support