O Buraco de Visão: Comunicação no Espaço Latente em Sistemas Multiagentes Heterogêneos

Resumo

Os Sistemas Multiagente (MAS) potenciados por Modelos de Linguagem de Grande Escala permitiram um raciocínio colaborativo avançado, mas continuam limitados pela ineficiência da comunicação discreta de texto, que impõe uma sobrecarga computacional significativa e perda de informação por quantização. Embora a transferência de estados latentes ofereça uma alternativa de alta largura de banda, as abordagens existentes ou assumem arquiteturas homogéneas de transmissor-receptor ou dependem de tradutores aprendidos específicos por par, limitando a escalabilidade e a modularidade entre diversas famílias de modelos com variedades disjuntas. Neste trabalho, propomos o Vision Wormhole, um novo quadro conceptual que reaproveita a interface visual dos Modelos de Linguagem e Visão (VLMs) para permitir uma comunicação livre de texto e independente do modelo. Ao introduzir um Codec Visual Universal, mapeamos traços de raciocínio heterogéneos para um espaço latente contínuo partilhado e injetamo-los diretamente no percurso visual do recetor, tratando efetivamente o codificador visual como uma porta universal para telepatia interagente. O nosso quadro adota uma topologia hub-and-spoke para reduzir a complexidade do alinhamento aos pares de O(N²) para O(N) e aproveita um objetivo de destilação professor-aluno sem rótulos para alinhar o canal visual de alta velocidade com os padrões de raciocínio robustos do percurso de texto. Experiências extensas em diversas famílias de modelos heterogéneos (por exemplo, Qwen-VL, Gemma) demonstram que o Vision Wormhole reduz o tempo de execução de ponta a ponta em comparações controladas, mantendo uma fidelidade de raciocínio comparável aos MAS baseados em texto padrão. O código está disponível em https://github.com/xz-liu/heterogeneous-latent-mas.

English

Multi-Agent Systems (MAS) powered by Large Language Models have unlocked advanced collaborative reasoning, yet they remain shackled by the inefficiency of discrete text communication, which imposes significant runtime overhead and information quantization loss. While latent state transfer offers a high-bandwidth alternative, existing approaches either assume homogeneous sender-receiver architectures or rely on pair-specific learned translators, limiting scalability and modularity across diverse model families with disjoint manifolds. In this work, we propose the Vision Wormhole, a novel framework that repurposes the visual interface of Vision-Language Models (VLMs) to enable model-agnostic, text-free communication. By introducing a Universal Visual Codec, we map heterogeneous reasoning traces into a shared continuous latent space and inject them directly into the receiver's visual pathway, effectively treating the vision encoder as a universal port for inter-agent telepathy. Our framework adopts a hub-and-spoke topology to reduce pairwise alignment complexity from O(N^2) to O(N) and leverages a label-free, teacher-student distillation objective to align the high-speed visual channel with the robust reasoning patterns of the text pathway. Extensive experiments across heterogeneous model families (e.g., Qwen-VL, Gemma) demonstrate that the Vision Wormhole reduces end-to-end wall-clock time in controlled comparisons while maintaining reasoning fidelity comparable to standard text-based MAS. Code is available at https://github.com/xz-liu/heterogeneous-latent-mas

O Buraco de Visão: Comunicação no Espaço Latente em Sistemas Multiagentes Heterogêneos

The Vision Wormhole: Latent-Space Communication in Heterogeneous Multi-Agent Systems

Resumo

Support