비전 웜홀: 이기종 다중 에이전트 시스템에서의 잠재 공간 통신
The Vision Wormhole: Latent-Space Communication in Heterogeneous Multi-Agent Systems
February 17, 2026
저자: Xiaoze Liu, Ruowang Zhang, Weichen Yu, Siheng Xiong, Liu He, Feijie Wu, Hoin Jung, Matt Fredrikson, Xiaoqian Wang, Jing Gao
cs.AI
초록
대규모 언어 모델 기반 다중 에이전트 시스템(MAS)은 고도화된 협력적 추론 능력을 구현했으나, 이산적 텍스트 통신의 비효율성으로 인해 여전히 제약을 받고 있습니다. 이는 상당한 런타임 오버헤드와 정보 양자화 손실을 초래합니다. 잠재 상태 전송은 높은 대역폭의 대안을 제공하지만, 기존 접근법은 동일한 송수신자 구조를 가정하거나 특정 쌍에 대해 학습된 번역기에 의존하여, 서로 다른 매니폴드를 가진 다양한 모델 패밀리 간 확장성과 모듈성을 제한합니다. 본 연구에서는 비전-언어 모델(VLM)의 시각 인터페이스를 재활용하여 모델에 구애받지 않는 텍스트 없는 통신을 가능하게 하는 새로운 프레임워크인 '비전 웜홀'을 제안합니다. 범용 시각 코덱을 도입하여 이기종 추론 흔적을 공유된 연속 잠재 공간에 매핑하고 수신자의 시각 경로에 직접 주입함으로써, 시각 인코더를 에이전트 간 텔레파시를 위한 범용 포트로 효과적으로 활용합니다. 본 프레임워크는 허브-앤-스포크 토폴로지를 채택하여 pairwise 정렬 복잡도를 O(N^2)에서 O(N)으로 줄이고, 레이블 없는 교사-학생 증류 목적함수를 활용하여 고속 시각 채널과 텍스트 경로의 강력한 추론 패턴을 정렬합니다. 다양한 이기종 모델 패밀리(예: Qwen-VL, Gemma)를 대상으로 한 광범위한 실험을 통해 비전 웜홀이 통제된 비교 환경에서 종단 간 경과 시간을 단축하면서도 표준 텍스트 기반 MAS에 필적하는 추론 정확도를 유지함을 입증했습니다. 코드는 https://github.com/xz-liu/heterogeneous-latent-mas 에서 확인할 수 있습니다.
English
Multi-Agent Systems (MAS) powered by Large Language Models have unlocked advanced collaborative reasoning, yet they remain shackled by the inefficiency of discrete text communication, which imposes significant runtime overhead and information quantization loss. While latent state transfer offers a high-bandwidth alternative, existing approaches either assume homogeneous sender-receiver architectures or rely on pair-specific learned translators, limiting scalability and modularity across diverse model families with disjoint manifolds. In this work, we propose the Vision Wormhole, a novel framework that repurposes the visual interface of Vision-Language Models (VLMs) to enable model-agnostic, text-free communication. By introducing a Universal Visual Codec, we map heterogeneous reasoning traces into a shared continuous latent space and inject them directly into the receiver's visual pathway, effectively treating the vision encoder as a universal port for inter-agent telepathy. Our framework adopts a hub-and-spoke topology to reduce pairwise alignment complexity from O(N^2) to O(N) and leverages a label-free, teacher-student distillation objective to align the high-speed visual channel with the robust reasoning patterns of the text pathway. Extensive experiments across heterogeneous model families (e.g., Qwen-VL, Gemma) demonstrate that the Vision Wormhole reduces end-to-end wall-clock time in controlled comparisons while maintaining reasoning fidelity comparable to standard text-based MAS. Code is available at https://github.com/xz-liu/heterogeneous-latent-mas