ChatPaper.aiChatPaper

La Brecha de Colaboración

The Collaboration Gap

November 4, 2025
Autores: Tim R. Davidson, Adam Fourney, Saleema Amershi, Robert West, Eric Horvitz, Ece Kamar
cs.AI

Resumen

La trayectoria del desarrollo de la IA sugiere que dependeremos cada vez más de sistemas basados en agentes compuestos por agentes desarrollados de forma independiente, con información, privilegios y herramientas diferentes. El éxito de estos sistemas dependerá críticamente de una colaboración efectiva entre estos agentes heterogéneos, incluso bajo condiciones de observabilidad parcial. A pesar del gran interés, pocos estudios empíricos han evaluado dicha colaboración agente-agente a gran escala. Proponemos un benchmark de resolución de laberintos colaborativo que (i) aísla las capacidades colaborativas, (ii) modula la complejidad del problema, (iii) permite una evaluación automatizada escalable y (iv) no impone restricciones de formato de salida, preservando la plausibilidad ecológica. Utilizando este marco, evaluamos 32 modelos líderes, tanto de código abierto como cerrado, en configuraciones individuales, homogéneas en parejas y heterogéneas en parejas. Nuestros resultados revelan una "brecha de colaboración": los modelos que rinden bien en solitario a menudo se degradan sustancialmente cuando se les exige colaborar. La colaboración puede romperse drásticamente; por ejemplo, pequeños modelos destilados que resuelven laberintos bien por sí solos pueden fallar casi por completo en ciertos emparejamientos. Encontramos que comenzar con el agente más fuerte a menudo mejora los resultados, lo que motiva un enfoque de "inferencia por relevos" donde el agente más fuerte lidera antes de pasar el testigo al más débil, cerrando así gran parte de la brecha. Nuestros hallazgos abogan por (1) una evaluación consciente de la colaboración, (2) estrategias de entrenamiento desarrolladas para mejorar las capacidades colaborativas, y (3) un diseño de interacción que elicite de forma fiable las habilidades latentes de los agentes, una guía aplicable tanto a la colaboración IA-IA como humano-IA.
English
The trajectory of AI development suggests that we will increasingly rely on agent-based systems composed of independently developed agents with different information, privileges, and tools. The success of these systems will critically depend on effective collaboration among these heterogeneous agents, even under partial observability. Despite intense interest, few empirical studies have evaluated such agent-agent collaboration at scale. We propose a collaborative maze-solving benchmark that (i) isolates collaborative capabilities, (ii) modulates problem complexity, (iii) enables scalable automated grading, and (iv) imposes no output-format constraints, preserving ecological plausibility. Using this framework, we evaluate 32 leading open- and closed-source models in solo, homogeneous, and heterogeneous pairings. Our results reveal a "collaboration gap": models that perform well solo often degrade substantially when required to collaborate. Collaboration can break down dramatically; for instance, small distilled models that solve mazes well alone may fail almost completely in certain pairings. We find that starting with the stronger agent often improves outcomes, motivating a "relay inference" approach where the stronger agent leads before handing off to the weaker one, closing much of the gap. Our findings argue for (1) collaboration-aware evaluation, (2) training strategies developed to enhance collaborative capabilities, and (3) interaction design that reliably elicits agents' latent skills, guidance that applies to AI-AI and human-AI collaboration.
PDF212December 2, 2025