Die Kluft in der Zusammenarbeit
The Collaboration Gap
November 4, 2025
papers.authors: Tim R. Davidson, Adam Fourney, Saleema Amershi, Robert West, Eric Horvitz, Ece Kamar
cs.AI
papers.abstract
Die Entwicklungspfade der KI deuten darauf hin, dass wir zunehmend auf agentenbasierte Systeme angewiesen sein werden, die aus unabhängig entwickelten Agenten mit unterschiedlichen Informationen, Berechtigungen und Werkzeugen bestehen. Der Erfolg dieser Systeme wird maßgeblich von einer effektiven Zusammenarbeit zwischen diesen heterogenen Agenten abhängen, selbst unter eingeschränkter Beobachtbarkeit. Trotz großem Interesse gibt es nur wenige empirische Studien, die solche Agenten-Agenten-Kollaboration in größerem Maßstab evaluiert haben. Wir schlagen einen Benchmark zur Lösung kollaborativer Labyrinthe vor, der (i) kollaborative Fähigkeiten isoliert, (ii) die Problemkomplexität moduliert, (iii) skalierbare automatische Bewertung ermöglicht und (iv) keine Einschränkungen des Ausgabeformats auferlegt, wodurch die ökologische Plausibilität gewahrt bleibt. Mit diesem Framework evaluieren wir 32 führende Open-Source- und Closed-Source-Modelle in Einzel-, homogenen und heterogenen Paarkonstellationen. Unsere Ergebnisse zeigen eine "Kollaborationslücke": Modelle, die alleine gut abschneiden, verschlechtern sich oft erheblich, wenn sie zusammenarbeiten müssen. Die Zusammenarbeit kann dramatisch scheitern; beispielsweise können kleine destillierte Modelle, die Labyrinthe alleine gut lösen, in bestimmten Paarungen fast vollständig versagen. Wir stellen fest, dass ein Start mit dem stärkeren Agenten die Ergebnisse oft verbessert, was einen "Relay-Inference"-Ansatz motiviert, bei dem der stärkere Agent die Führung übernimmt, bevor er an den schwächeren übergibt und so den Großteil der Lücke schließt. Unsere Ergebnisse sprechen für (1) kollaborationsbewusste Evaluation, (2) Trainingsstrategien zur Verbesserung kollaborativer Fähigkeiten und (3) Interaktionsdesign, das die latenten Fähigkeiten von Agenten zuverlässig abruft – Leitlinien, die für KI-KI- und Mensch-KI-Kollaboration gleichermaßen gelten.
English
The trajectory of AI development suggests that we will increasingly rely on
agent-based systems composed of independently developed agents with different
information, privileges, and tools. The success of these systems will
critically depend on effective collaboration among these heterogeneous agents,
even under partial observability. Despite intense interest, few empirical
studies have evaluated such agent-agent collaboration at scale. We propose a
collaborative maze-solving benchmark that (i) isolates collaborative
capabilities, (ii) modulates problem complexity, (iii) enables scalable
automated grading, and (iv) imposes no output-format constraints, preserving
ecological plausibility. Using this framework, we evaluate 32 leading open- and
closed-source models in solo, homogeneous, and heterogeneous pairings. Our
results reveal a "collaboration gap": models that perform well solo often
degrade substantially when required to collaborate. Collaboration can break
down dramatically; for instance, small distilled models that solve mazes well
alone may fail almost completely in certain pairings. We find that starting
with the stronger agent often improves outcomes, motivating a "relay inference"
approach where the stronger agent leads before handing off to the weaker one,
closing much of the gap. Our findings argue for (1) collaboration-aware
evaluation, (2) training strategies developed to enhance collaborative
capabilities, and (3) interaction design that reliably elicits agents' latent
skills, guidance that applies to AI-AI and human-AI collaboration.