CooperBench: Warum Code-Agenten noch keine Teammitglieder sein können

papers.abstract

Die Lösung von Teamkonflikten erfordert nicht nur aufgabenspezifische Kompetenz, sondern auch soziale Intelligenz, um gemeinsame Nenner zu finden und Konsens zu bilden. Da KI-Agenten zunehmend bei komplexen Arbeiten zusammenarbeiten, müssen sie Koordinationsfähigkeiten entwickeln, um als effektive Teammitglieder zu funktionieren. Dennoch stellen wir die Hypothese auf, dass aktuellen Agenten diese Fähigkeiten fehlen. Um dies zu testen, führen wir CooperBench ein, einen Benchmark mit über 600 kollaborativen Programmieraufgaben aus 12 Bibliotheken in 4 Programmiersprachen. Jede Aufgabe weist zwei Agenten unterschiedliche Funktionen zu, die unabhängig voneinander implementiert werden können, aber ohne ordnungsgemäße Koordination in Konflikt geraten können. Die Aufgaben basieren auf echten Open-Source-Repositories mit expertengeschriebenen Tests. Bei der Evaluierung modernster Programmieragenten beobachten wir den Fluch der Koordination: Agenten erreichen durchschnittlich 30 % niedrigere Erfolgsquoten bei der Zusammenarbeit im Vergleich zur individuellen Bearbeitung beider Aufgaben. Dies steht in scharfem Kontrast zu menschlichen Teams, wo zusätzliche Teammitglieder typischerweise die Produktivität steigern. Unsere Analyse deckt drei Hauptprobleme auf: (1) Kommunikationskanäle verstopfen durch vage, schlecht getimte und ungenaue Nachrichten; (2) selbst bei effektiver Kommunikation weichen Agenten von ihren Zusagen ab; und (3) Agenten haben oft falsche Erwartungen an die Pläne und Kommunikation anderer. Durch groß angelegte Simulationen beobachten wir zudem seltene, aber interessante emergente Koordinationsverhalten wie Rollenteilung, Ressourcenaufteilung und Verhandlungen. Unsere Forschung stellt einen neuartigen Benchmark für kollaboratives Programmieren vor und fordert einen Wandel vom Streben nach individuellen Agentenfähigkeiten hin zur Entwicklung sozialer Intelligenz.

English

Resolving team conflicts requires not only task-specific competence, but also social intelligence to find common ground and build consensus. As AI agents increasingly collaborate on complex work, they must develop coordination capabilities to function as effective teammates. Yet we hypothesize that current agents lack these capabilities. To test this, we introduce CooperBench, a benchmark of over 600 collaborative coding tasks across 12 libraries in 4 programming languages. Each task assigns two agents different features that can be implemented independently but may conflict without proper coordination. Tasks are grounded in real open-source repositories with expert-written tests. Evaluating state-of-the-art coding agents, we observe the curse of coordination: agents achieve on average 30% lower success rates when working together compared to performing both tasks individually. This contrasts sharply with human teams, where adding teammates typically improves productivity. Our analysis reveals three key issues: (1) communication channels become jammed with vague, ill-timed, and inaccurate messages; (2) even with effective communication, agents deviate from their commitments; and (3) agents often hold incorrect expectations about others' plans and communication. Through large-scale simulation, we also observe rare but interesting emergent coordination behavior including role division, resource division, and negotiation. Our research presents a novel benchmark for collaborative coding and calls for a shift from pursuing individual agent capability to developing social intelligence.

CooperBench: Warum Code-Agenten noch keine Teammitglieder sein können

CooperBench: Why Coding Agents Cannot be Your Teammates Yet

papers.abstract

Support