ChatPaper.aiChatPaper

Le Trou de Ver Visuel : Communication par Espace Latent dans les Systèmes Multi-Agents Hétérogènes

The Vision Wormhole: Latent-Space Communication in Heterogeneous Multi-Agent Systems

February 17, 2026
papers.authors: Xiaoze Liu, Ruowang Zhang, Weichen Yu, Siheng Xiong, Liu He, Feijie Wu, Hoin Jung, Matt Fredrikson, Xiaoqian Wang, Jing Gao
cs.AI

papers.abstract

Les systèmes multi-agents (SMA) propulsés par les grands modèles de langage ont débloqué un raisonnement collaboratif avancé, mais restent entravés par l'inefficacité de la communication textuelle discrète, qui impose une surcharge d'exécution significative et une perte de quantification de l'information. Bien que le transfert d'état latent offre une alternative à haut débit, les approches existantes supposent soit des architectures homogènes émetteur-récepteur, soit reposent sur des traducteurs appris spécifiques à chaque paire, limitant l'évolutivité et la modularité entre des familles de modèles hétérogènes aux variétés disjointes. Dans ce travail, nous proposons le Vision Wormhole, un nouveau cadre qui réutilise l'interface visuelle des modèles vision-langage (VLM) pour permettre une communication indépendante du modèle et sans texte. En introduisant un Codec Visuel Universel, nous cartographions les traces de raisonnement hétérogènes dans un espace latent continu partagé et les injectons directement dans le chemin visuel du récepteur, utilisant ainsi efficacement l'encodeur visuel comme un port universel pour la télépathie inter-agents. Notre cadre adopte une topologie en étoile pour réduire la complexité d'alignement par paire de O(N²) à O(N) et tire parti d'un objectif de distillation enseignant-élève sans étiquette pour aligner le canal visuel haute vitesse avec les schémas de raisonnement robustes de la voie textuelle. Des expériences approfondies sur diverses familles de modèles hétérogènes (par exemple, Qwen-VL, Gemma) démontrent que le Vision Wormhole réduit le temps d'exécution réel de bout en bout dans des comparaisons contrôlées tout en maintenant une fidélité de raisonnement comparable aux SMA textuels standard. Le code est disponible à l'adresse https://github.com/xz-liu/heterogeneous-latent-mas
English
Multi-Agent Systems (MAS) powered by Large Language Models have unlocked advanced collaborative reasoning, yet they remain shackled by the inefficiency of discrete text communication, which imposes significant runtime overhead and information quantization loss. While latent state transfer offers a high-bandwidth alternative, existing approaches either assume homogeneous sender-receiver architectures or rely on pair-specific learned translators, limiting scalability and modularity across diverse model families with disjoint manifolds. In this work, we propose the Vision Wormhole, a novel framework that repurposes the visual interface of Vision-Language Models (VLMs) to enable model-agnostic, text-free communication. By introducing a Universal Visual Codec, we map heterogeneous reasoning traces into a shared continuous latent space and inject them directly into the receiver's visual pathway, effectively treating the vision encoder as a universal port for inter-agent telepathy. Our framework adopts a hub-and-spoke topology to reduce pairwise alignment complexity from O(N^2) to O(N) and leverages a label-free, teacher-student distillation objective to align the high-speed visual channel with the robust reasoning patterns of the text pathway. Extensive experiments across heterogeneous model families (e.g., Qwen-VL, Gemma) demonstrate that the Vision Wormhole reduces end-to-end wall-clock time in controlled comparisons while maintaining reasoning fidelity comparable to standard text-based MAS. Code is available at https://github.com/xz-liu/heterogeneous-latent-mas
PDF11February 19, 2026