Il Divario nella Collaborazione
The Collaboration Gap
November 4, 2025
Autori: Tim R. Davidson, Adam Fourney, Saleema Amershi, Robert West, Eric Horvitz, Ece Kamar
cs.AI
Abstract
La traiettoria dello sviluppo dell'intelligenza artificiale suggerisce che faremo sempre più affidamento su sistemi basati su agenti, composti da agenti sviluppati in modo indipendente con informazioni, privilegi e strumenti diversi. Il successo di questi sistemi dipenderà in modo cruciale da una collaborazione efficace tra questi agenti eterogenei, anche in condizioni di osservabilità parziale. Nonostante l'intenso interesse, pochi studi empirici hanno valutato su larga scala tale collaborazione agente-agente. Proponiamo un benchmark collaborativo per la risoluzione di labirinti che (i) isola le capacità collaborative, (ii) modula la complessità del problema, (iii) consente una valutazione automatizzata scalabile e (iv) non impone vincoli sul formato di output, preservando la plausibilità ecologica. Utilizzando questo framework, valutiamo 32 modelli leader open-source e closed-source in configurazioni singole, omogenee in coppia ed eterogenee in coppia. I nostri risultati rivelano un "divario collaborativo": i modelli che performano bene in solitario spesso si degradano sostanzialmente quando è richiesta la collaborazione. La collaborazione può interrompersi in modo drammatico; ad esempio, piccoli modelli distillati che risolvono bene i labirinti da soli possono fallire quasi completamente in determinate coppie. Scopriamo che iniziare con l'agente più forte spesso migliora i risultati, motivando un approccio di "inferenza a staffetta" in cui l'agente più forte guida per poi passare il compito a quello più debole, colmando gran parte del divario. Le nostre scoperte sostengono la necessità di (1) valutazioni che tengano conto della collaborazione, (2) strategie di addestramento sviluppate per potenziare le capacità collaborative e (3) una progettazione dell'interazione che evochi in modo affidabile le competenze latenti degli agenti, linee guida che si applicano sia alla collaborazione AI-AI che a quella umano-AI.
English
The trajectory of AI development suggests that we will increasingly rely on
agent-based systems composed of independently developed agents with different
information, privileges, and tools. The success of these systems will
critically depend on effective collaboration among these heterogeneous agents,
even under partial observability. Despite intense interest, few empirical
studies have evaluated such agent-agent collaboration at scale. We propose a
collaborative maze-solving benchmark that (i) isolates collaborative
capabilities, (ii) modulates problem complexity, (iii) enables scalable
automated grading, and (iv) imposes no output-format constraints, preserving
ecological plausibility. Using this framework, we evaluate 32 leading open- and
closed-source models in solo, homogeneous, and heterogeneous pairings. Our
results reveal a "collaboration gap": models that perform well solo often
degrade substantially when required to collaborate. Collaboration can break
down dramatically; for instance, small distilled models that solve mazes well
alone may fail almost completely in certain pairings. We find that starting
with the stronger agent often improves outcomes, motivating a "relay inference"
approach where the stronger agent leads before handing off to the weaker one,
closing much of the gap. Our findings argue for (1) collaboration-aware
evaluation, (2) training strategies developed to enhance collaborative
capabilities, and (3) interaction design that reliably elicits agents' latent
skills, guidance that applies to AI-AI and human-AI collaboration.