協力のギャップ
The Collaboration Gap
November 4, 2025
著者: Tim R. Davidson, Adam Fourney, Saleema Amershi, Robert West, Eric Horvitz, Ece Kamar
cs.AI
要旨
AI開発の軌跡をたどると、将来的には異なる情報・権限・ツールを持つ独立開発されたエージェントで構成されるエージェントベースシステムへの依存度が高まることが示唆されている。こうしたシステムの成否は、部分観測性という条件下であっても、異種混合のエージェント間における効果的な協調に大きく依存する。強い関心が寄せられているにもかかわらず、このようなエージェント間協調を大規模に評価した実証研究はほとんどない。本研究では、(i) 協調能力を分離して評価し、(ii) 問題の複雑さを調整可能で、(iii) スケーラブルな自動採点を可能にし、(iv) 出力形式の制約を設けず生態学的妥当性を保った、協調型迷路解決ベンチマークを提案する。この枠組みを用いて、32の主要なオープンソースおよびクローズドソースモデルを、単独、同種ペア、異種ペアの設定で評価した。結果は「協調ギャップ」を明らかにした:単独では高い性能を発揮するモデルも、協調が要求されると性能が大幅に低下するのである。協調は劇的に破綻することがあり、例えば、単独では迷路をうまく解決する小型の蒸留モデルも、特定のペアリングではほとんど失敗する。より強力なエージェントから開始すると結果が改善される傾向があり、強力なエージェントが主導した後、弱いエージェントに引き継ぐ「リレー推論」アプローチの動機付けとなった。この手法によりギャップの大部分が解消される。我々の発見は、(1) 協調を意識した評価、(2) 協調能力を強化するための訓練戦略の開発、(3) エージェントの潜在能力を確実に引き出すインタラクションデザインの必要性を主張するものであり、この指針はAI間協調と人間-AI協調の両方に適用できる。
English
The trajectory of AI development suggests that we will increasingly rely on
agent-based systems composed of independently developed agents with different
information, privileges, and tools. The success of these systems will
critically depend on effective collaboration among these heterogeneous agents,
even under partial observability. Despite intense interest, few empirical
studies have evaluated such agent-agent collaboration at scale. We propose a
collaborative maze-solving benchmark that (i) isolates collaborative
capabilities, (ii) modulates problem complexity, (iii) enables scalable
automated grading, and (iv) imposes no output-format constraints, preserving
ecological plausibility. Using this framework, we evaluate 32 leading open- and
closed-source models in solo, homogeneous, and heterogeneous pairings. Our
results reveal a "collaboration gap": models that perform well solo often
degrade substantially when required to collaborate. Collaboration can break
down dramatically; for instance, small distilled models that solve mazes well
alone may fail almost completely in certain pairings. We find that starting
with the stronger agent often improves outcomes, motivating a "relay inference"
approach where the stronger agent leads before handing off to the weaker one,
closing much of the gap. Our findings argue for (1) collaboration-aware
evaluation, (2) training strategies developed to enhance collaborative
capabilities, and (3) interaction design that reliably elicits agents' latent
skills, guidance that applies to AI-AI and human-AI collaboration.