ChatPaper.aiChatPaper

L'écart de collaboration

The Collaboration Gap

November 4, 2025
papers.authors: Tim R. Davidson, Adam Fourney, Saleema Amershi, Robert West, Eric Horvitz, Ece Kamar
cs.AI

papers.abstract

La trajectoire du développement de l'IA suggère que nous dépendrons de plus en plus de systèmes à base d'agents, composés d'agents développés indépendamment, disposant d'informations, de privilèges et d'outils différents. Le succès de ces systèmes dépendra de manière cruciale d'une collaboration efficace entre ces agents hétérogènes, même dans des conditions d'observabilité partielle. Malgré un vif intérêt, peu d'études empiriques ont évalué une telle collaboration entre agents à grande échelle. Nous proposons un benchmark collaboratif de résolution de labyrinthes qui (i) isole les capacités collaboratives, (ii) module la complexité du problème, (iii) permet une évaluation automatisée et scalable, et (iv) n'impose aucune contrainte sur le format de sortie, préservant ainsi la plausibilité écologique. En utilisant ce cadre, nous évaluons 32 modèles open-source et propriétaires leaders, en configurations solo, en paires homogènes et hétérogènes. Nos résultats révèlent un « fossé collaboratif » : les modèles performants seuls voient souvent leurs résultats se dégrader substantiellement lorsqu'ils doivent collaborer. La collaboration peut échouer de manière spectaculaire ; par exemple, de petits modèles distillés qui résolvent bien seuls des labyrinthes peuvent échouer presque complètement dans certaines paires. Nous constatons que commencer avec l'agent le plus fort améliore souvent les résultats, ce qui motive une approche d'« inférence en relais » où l'agent le plus fort mène la tâche avant de la passer au plus faible, comblant ainsi une grande partie du fossé. Nos conclusions plaident pour (1) une évaluation prenant en compte la collaboration, (2) des stratégies d'entraînement développées pour renforcer les capacités collaboratives, et (3) une conception des interactions qui sollicite de manière fiable les compétences latentes des agents, des conseils qui s'appliquent à la collaboration entre IA-IA et humain-IA.
English
The trajectory of AI development suggests that we will increasingly rely on agent-based systems composed of independently developed agents with different information, privileges, and tools. The success of these systems will critically depend on effective collaboration among these heterogeneous agents, even under partial observability. Despite intense interest, few empirical studies have evaluated such agent-agent collaboration at scale. We propose a collaborative maze-solving benchmark that (i) isolates collaborative capabilities, (ii) modulates problem complexity, (iii) enables scalable automated grading, and (iv) imposes no output-format constraints, preserving ecological plausibility. Using this framework, we evaluate 32 leading open- and closed-source models in solo, homogeneous, and heterogeneous pairings. Our results reveal a "collaboration gap": models that perform well solo often degrade substantially when required to collaborate. Collaboration can break down dramatically; for instance, small distilled models that solve mazes well alone may fail almost completely in certain pairings. We find that starting with the stronger agent often improves outcomes, motivating a "relay inference" approach where the stronger agent leads before handing off to the weaker one, closing much of the gap. Our findings argue for (1) collaboration-aware evaluation, (2) training strategies developed to enhance collaborative capabilities, and (3) interaction design that reliably elicits agents' latent skills, guidance that applies to AI-AI and human-AI collaboration.
PDF212December 2, 2025