El Agujero de Gusano Visual: Comunicación en Espacio Latente en Sistemas Multiagente Heterogéneos
The Vision Wormhole: Latent-Space Communication in Heterogeneous Multi-Agent Systems
February 17, 2026
Autores: Xiaoze Liu, Ruowang Zhang, Weichen Yu, Siheng Xiong, Liu He, Feijie Wu, Hoin Jung, Matt Fredrikson, Xiaoqian Wang, Jing Gao
cs.AI
Resumen
Los Sistemas Multiagente (MAS) impulsados por Modelos de Lenguaje Grande han desbloqueado un razonamiento colaborativo avanzado, pero siguen lastrados por la ineficiencia de la comunicación discreta de texto, que impone una sobrecarga computacional significativa y una pérdida de información por cuantización. Si bien la transferencia de estados latentes ofrece una alternativa de alto ancho de banda, los enfoques existentes asumen arquitecturas homogéneas de emisor-receptor o dependen de traductores aprendidos específicos para cada par, lo que limita la escalabilidad y modularidad entre diversas familias de modelos con variedades disjuntas. En este trabajo, proponemos el "Vision Wormhole", un marco novedoso que readapta la interfaz visual de los Modelos de Lenguaje-Visión (VLMs) para permitir una comunicación libre de texto y agnóstica al modelo. Mediante la introducción de un Codec Visual Universal, mapeamos trazas de razonamiento heterogéneas en un espacio latente continuo compartido y las inyectamos directamente en la vía visual del receptor, tratando efectivamente al codificador visual como un puerto universal para la telepatía interagente. Nuestro marco adopta una topología de estrella para reducir la complejidad del alineamiento por pares de O(N²) a O(N) y aprovecha un objetivo de destilación profesor-estudiante sin etiquetas para alinear el canal visual de alta velocidad con los patrones de razonamiento robustos de la vía textual. Experimentos exhaustivos en diversas familias de modelos heterogéneos (por ejemplo, Qwen-VL, Gemma) demuestran que el Vision Wormhole reduce el tiempo de ejecución de extremo a extremo en comparaciones controladas, manteniendo una fidelidad de razonamiento comparable a los MAS estándar basados en texto. El código está disponible en https://github.com/xz-liu/heterogeneous-latent-mas.
English
Multi-Agent Systems (MAS) powered by Large Language Models have unlocked advanced collaborative reasoning, yet they remain shackled by the inefficiency of discrete text communication, which imposes significant runtime overhead and information quantization loss. While latent state transfer offers a high-bandwidth alternative, existing approaches either assume homogeneous sender-receiver architectures or rely on pair-specific learned translators, limiting scalability and modularity across diverse model families with disjoint manifolds. In this work, we propose the Vision Wormhole, a novel framework that repurposes the visual interface of Vision-Language Models (VLMs) to enable model-agnostic, text-free communication. By introducing a Universal Visual Codec, we map heterogeneous reasoning traces into a shared continuous latent space and inject them directly into the receiver's visual pathway, effectively treating the vision encoder as a universal port for inter-agent telepathy. Our framework adopts a hub-and-spoke topology to reduce pairwise alignment complexity from O(N^2) to O(N) and leverages a label-free, teacher-student distillation objective to align the high-speed visual channel with the robust reasoning patterns of the text pathway. Extensive experiments across heterogeneous model families (e.g., Qwen-VL, Gemma) demonstrate that the Vision Wormhole reduces end-to-end wall-clock time in controlled comparisons while maintaining reasoning fidelity comparable to standard text-based MAS. Code is available at https://github.com/xz-liu/heterogeneous-latent-mas