De samenwerkingskloof
The Collaboration Gap
November 4, 2025
Auteurs: Tim R. Davidson, Adam Fourney, Saleema Amershi, Robert West, Eric Horvitz, Ece Kamar
cs.AI
Samenvatting
Het ontwikkelingspad van AI suggereert dat we in toenemende mate zullen vertrouwen op agent-gebaseerde systemen die bestaan uit onafhankelijk ontwikkelde agents met verschillende informatie, rechten en tools. Het succes van deze systemen zal in cruciale mate afhangen van effectieve samenwerking tussen deze heterogene agents, zelfs onder gedeeltelijke waarneembaarheid. Ondanks intense belangstelling, zijn er weinig empirische studies die dergelijke agent-agent samenwerking op grote schaal hebben geëvalueerd. Wij stellen een collaboratief doolhofoplossingsbenchmark voor dat (i) collaboratieve capaciteiten isoleert, (ii) probleemcomplexiteit moduleert, (iii) schaalbare automatische beoordeling mogelijk maakt, en (iv) geen outputformaatbeperkingen oplegt, waardoor ecologische plausibiliteit behouden blijft. Met dit framework evalueren we 32 toonaangevende open- en closed-source modellen in solo-, homogene en heterogene koppelingen. Onze resultaten onthullen een "samenwerkingskloof": modellen die alleen goed presteren, gaan vaak aanzienlijk achteruit wanneer ze moeten samenwerken. Samenwerking kan dramatisch mislukken; bijvoorbeeld, kleine gedistilleerde modellen die doolhoven goed alleen oplossen, kunnen in bepaalde koppelingen bijna volledig falen. Wij constateren dat beginnen met de sterkere agent de resultaten vaak verbetert, wat een "relay inference"-benadering motiveert waarbij de sterkere agent de leiding neemt voordat hij overdraagt aan de zwakkere, waardoor een groot deel van de kloof wordt gedicht. Onze bevindingen pleiten voor (1) samenwerkingsbewuste evaluatie, (2) trainingsstrategieën die zijn ontwikkeld om collaboratieve capaciteiten te verbeteren, en (3) interactieontwerp dat betrouwbaar de latente vaardigheden van agents naar voren haalt, richtlijnen die van toepassing zijn op AI-AI en mens-AI samenwerking.
English
The trajectory of AI development suggests that we will increasingly rely on
agent-based systems composed of independently developed agents with different
information, privileges, and tools. The success of these systems will
critically depend on effective collaboration among these heterogeneous agents,
even under partial observability. Despite intense interest, few empirical
studies have evaluated such agent-agent collaboration at scale. We propose a
collaborative maze-solving benchmark that (i) isolates collaborative
capabilities, (ii) modulates problem complexity, (iii) enables scalable
automated grading, and (iv) imposes no output-format constraints, preserving
ecological plausibility. Using this framework, we evaluate 32 leading open- and
closed-source models in solo, homogeneous, and heterogeneous pairings. Our
results reveal a "collaboration gap": models that perform well solo often
degrade substantially when required to collaborate. Collaboration can break
down dramatically; for instance, small distilled models that solve mazes well
alone may fail almost completely in certain pairings. We find that starting
with the stronger agent often improves outcomes, motivating a "relay inference"
approach where the stronger agent leads before handing off to the weaker one,
closing much of the gap. Our findings argue for (1) collaboration-aware
evaluation, (2) training strategies developed to enhance collaborative
capabilities, and (3) interaction design that reliably elicits agents' latent
skills, guidance that applies to AI-AI and human-AI collaboration.