협력의 간극
The Collaboration Gap
November 4, 2025
저자: Tim R. Davidson, Adam Fourney, Saleema Amershi, Robert West, Eric Horvitz, Ece Kamar
cs.AI
초록
인공지능 발전 경로를 고려할 때, 앞으로는 서로 다른 정보, 권한, 도구를 갖춘 독립적으로 개발된 에이전트들로 구성된 에이전트 기반 시스템에 점점 더 의존하게 될 것임을 시사합니다. 이러한 시스템의 성공은 부분적 관찰 가능성 하에서도 이질적 에이전트들 간의 효과적인 협력에 크게 좌우될 것입니다. 많은 관심에도 불구하고, 이러한 에이전트 간 협력을 대규모로 평가한 실증 연구는 거의 없습니다. 본 연구에서는 (i) 협력 능력을 분리하고, (ii) 문제 복잡성을 조절하며, (iii) 확장 가능한 자동 채점을 가능하게 하며, (iv) 생태학적 타당성을 유지하기 위해 출력 형식 제약을 두지 않는 협력형 미로 해결 벤치마크를 제안합니다. 이 프레임워크를 이용하여 단독, 동종, 이종 페어링으로 32개의 주요 오픈소스 및 클로즈드소스 모델을 평가했습니다. 우리의 결과는 "협력 격차"를 보여줍니다: 단독으로는 우수한 성능을 보이는 모델들이 협력이 필요할 때는 상당히 성능이 저하되는 경우가 많습니다. 협력은 극적으로 실패할 수 있습니다. 예를 들어, 단독으로는 미로를 잘 해결하는 소형 경량화 모델이 특정 페어링에서는 거의 완전히 실패하기도 합니다. 우리는 강한 에이전트로 시작하는 것이 종종 결과를 개선시킴을 발견했으며, 이는 강한 에이전트가 주도한 후 약한 에이전트에게 넘겨주는 "릴레이 추론" 접근법의 동기를 부여하며, 이로 인해 격차 상당 부분이 해소되었습니다. 우리의 연구 결과는 (1) 협력을 고려한 평가, (2) 협력 능력을 향상시키기 위해 개발된 훈련 전략, (3) 에이전트의 잠재 역량을 안정적으로 이끌어내는 상호작용 설계의 필요성을 시사합니다. 이러한 지침은 AI-AI 및 인간-AI 협력 모두에 적용됩니다.
English
The trajectory of AI development suggests that we will increasingly rely on
agent-based systems composed of independently developed agents with different
information, privileges, and tools. The success of these systems will
critically depend on effective collaboration among these heterogeneous agents,
even under partial observability. Despite intense interest, few empirical
studies have evaluated such agent-agent collaboration at scale. We propose a
collaborative maze-solving benchmark that (i) isolates collaborative
capabilities, (ii) modulates problem complexity, (iii) enables scalable
automated grading, and (iv) imposes no output-format constraints, preserving
ecological plausibility. Using this framework, we evaluate 32 leading open- and
closed-source models in solo, homogeneous, and heterogeneous pairings. Our
results reveal a "collaboration gap": models that perform well solo often
degrade substantially when required to collaborate. Collaboration can break
down dramatically; for instance, small distilled models that solve mazes well
alone may fail almost completely in certain pairings. We find that starting
with the stronger agent often improves outcomes, motivating a "relay inference"
approach where the stronger agent leads before handing off to the weaker one,
closing much of the gap. Our findings argue for (1) collaboration-aware
evaluation, (2) training strategies developed to enhance collaborative
capabilities, and (3) interaction design that reliably elicits agents' latent
skills, guidance that applies to AI-AI and human-AI collaboration.