A Lacuna de Colaboração

Resumo

A trajetória do desenvolvimento da IA sugere que iremos depender cada vez mais de sistemas baseados em agentes, compostos por agentes desenvolvidos de forma independente, com diferentes informações, privilégios e ferramentas. O sucesso destes sistemas dependerá criticamente de uma colaboração eficaz entre estes agentes heterogêneos, mesmo sob observabilidade parcial. Apesar do intenso interesse, poucos estudos empíricos avaliaram tal colaboração agente-agente em larga escala. Propomos um benchmark colaborativo de resolução de labirintos que (i) isola as capacidades colaborativas, (ii) modula a complexidade do problema, (iii) permite uma avaliação automatizada escalável e (iv) não impõe restrições de formato de saída, preservando a plausibilidade ecológica. Utilizando este quadro de avaliação, avaliamos 32 dos principais modelos *open-source* e proprietários em configurações individuais, homogéneas e heterogéneas. Os nossos resultados revelam uma "lacuna de colaboração": modelos com bom desempenho individual degradam-se substancialmente quando obrigados a colaborar. A colaboração pode falhar drasticamente; por exemplo, pequenos modelos destilados que resolvem labirintos sozinhos podem falhar quase completamente em certos pares. Descobrimos que começar com o agente mais forte frequentemente melhora os resultados, motivando uma abordagem de "inferência por revezamento" onde o agente mais forte lidera antes de passar a tarefa para o mais fraco, fechando grande parte da lacuna. As nossas descobertas defendem (1) uma avaliação consciente da colaboração, (2) estratégias de treino desenvolvidas para melhorar as capacidades colaborativas, e (3) um design de interação que elicie de forma confiável as competências latentes dos agentes, orientações que se aplicam tanto à colaboração IA-IA como humano-IA.

English

The trajectory of AI development suggests that we will increasingly rely on agent-based systems composed of independently developed agents with different information, privileges, and tools. The success of these systems will critically depend on effective collaboration among these heterogeneous agents, even under partial observability. Despite intense interest, few empirical studies have evaluated such agent-agent collaboration at scale. We propose a collaborative maze-solving benchmark that (i) isolates collaborative capabilities, (ii) modulates problem complexity, (iii) enables scalable automated grading, and (iv) imposes no output-format constraints, preserving ecological plausibility. Using this framework, we evaluate 32 leading open- and closed-source models in solo, homogeneous, and heterogeneous pairings. Our results reveal a "collaboration gap": models that perform well solo often degrade substantially when required to collaborate. Collaboration can break down dramatically; for instance, small distilled models that solve mazes well alone may fail almost completely in certain pairings. We find that starting with the stronger agent often improves outcomes, motivating a "relay inference" approach where the stronger agent leads before handing off to the weaker one, closing much of the gap. Our findings argue for (1) collaboration-aware evaluation, (2) training strategies developed to enhance collaborative capabilities, and (3) interaction design that reliably elicits agents' latent skills, guidance that applies to AI-AI and human-AI collaboration.

A Lacuna de Colaboração

The Collaboration Gap

Resumo

Support