ChatPaper.aiChatPaper

Разрыв в совместной работе

The Collaboration Gap

November 4, 2025
Авторы: Tim R. Davidson, Adam Fourney, Saleema Amershi, Robert West, Eric Horvitz, Ece Kamar
cs.AI

Аннотация

Траектория развития искусственного интеллекта свидетельствует о том, что мы будем все больше полагаться на агентно-ориентированные системы, состоящие из независимо разработанных агентов с различной информацией, привилегиями и инструментами. Успех таких систем будет критически зависеть от эффективного сотрудничества между этими гетерогенными агентами, даже в условиях частичной наблюдаемости. Несмотря на значительный интерес, мало эмпирических исследований оценивало подобное межагентное взаимодействие в крупных масштабах. Мы предлагаем бенчмарк решения лабиринтов, требующий коллаборации, который (i) изолирует способность к сотрудничеству, (ii) позволяет модулировать сложность задачи, (iii) обеспечивает масштабируемую автоматическую оценку и (iv) не накладывает ограничений на формат вывода, сохраняя экологическую правдоподобность. Используя эту структуру, мы оцениваем 32 ведущие модели с открытым и закрытым исходным кодом в одиночном, гомогенном и гетерогенном парном режимах. Наши результаты выявляют «разрыв в сотрудничестве»: модели, которые хорошо работают в одиночку, часто значительно ухудшают свои показатели, когда от них требуется взаимодействие. Коллаборация может нарушаться кардинально; например, небольшие дистиллированные модели, успешно решающие лабиринты самостоятельно, могут почти полностью проваливаться в определенных парах. Мы обнаружили, что начало работы с более сильного агента часто улучшает результаты, что обосновывает подход «релейного вывода», при котором более сильный агент начинает задачу, а затем передает ее более слабому, закрывая большую часть разрыва. Наши выводы свидетельствуют в пользу (1) оценки, учитывающей способность к кооперации, (2) стратегий обучения, разработанных для улучшения коллаборативных возможностей, и (3) проектирования взаимодействий, которое надежно раскрывает скрытые навыки агентов. Эти рекомендации применимы как к сотрудничеству ИИ-ИИ, так и к взаимодействию человек-ИИ.
English
The trajectory of AI development suggests that we will increasingly rely on agent-based systems composed of independently developed agents with different information, privileges, and tools. The success of these systems will critically depend on effective collaboration among these heterogeneous agents, even under partial observability. Despite intense interest, few empirical studies have evaluated such agent-agent collaboration at scale. We propose a collaborative maze-solving benchmark that (i) isolates collaborative capabilities, (ii) modulates problem complexity, (iii) enables scalable automated grading, and (iv) imposes no output-format constraints, preserving ecological plausibility. Using this framework, we evaluate 32 leading open- and closed-source models in solo, homogeneous, and heterogeneous pairings. Our results reveal a "collaboration gap": models that perform well solo often degrade substantially when required to collaborate. Collaboration can break down dramatically; for instance, small distilled models that solve mazes well alone may fail almost completely in certain pairings. We find that starting with the stronger agent often improves outcomes, motivating a "relay inference" approach where the stronger agent leads before handing off to the weaker one, closing much of the gap. Our findings argue for (1) collaboration-aware evaluation, (2) training strategies developed to enhance collaborative capabilities, and (3) interaction design that reliably elicits agents' latent skills, guidance that applies to AI-AI and human-AI collaboration.
PDF212December 2, 2025