ChatPaper.aiChatPaper

視覚ワームホール:異種マルチエージェントシステムにおける潜在空間通信

The Vision Wormhole: Latent-Space Communication in Heterogeneous Multi-Agent Systems

February 17, 2026
著者: Xiaoze Liu, Ruowang Zhang, Weichen Yu, Siheng Xiong, Liu He, Feijie Wu, Hoin Jung, Matt Fredrikson, Xiaoqian Wang, Jing Gao
cs.AI

要旨

大規模言語モデルによって駆動されるマルチエージェントシステム(MAS)は高度な協調推論を実現したが、離散的なテキスト通信の非効率性に依然として縛られており、多大な実行時オーバーヘッドと情報量子化損失を課している。潜在状態転送は高帯域の代替手段を提供するが、既存手法は送信側・受信側の同種アーキテクチャを仮定するか、ペア固有の学習済み翻訳器に依存しており、非交差多様体を持つ多様なモデルファミリー間での拡張性とモジュール性を制限している。本研究では、Vision-Language Model(VLM)の視覚インターフェースを再利用し、モデル非依存のテキスト不要通信を可能にする新規フレームワーク「Vision Wormhole」を提案する。ユニバーサル視覚コーデックを導入することで、異種推論トレースを共有連続潜在空間に写像し、受信側の視覚経路に直接注入する。これにより、視覚エンコーダをエージェント間テレパシーのユニバーサルポートとして機能させる。本フレームワークはハブ・アンド・スポークトポロジーを採用し、ペアワイズ調整の複雑性をO(N²)からO(N)に削減する。さらに、ラベル不要の教師-生徒蒸留目的関数を活用し、高速視覚チャネルをテキスト経路の堅牢な推論パターンに整合させる。異種モデルファミリー(Qwen-VL、Gemma等)を用いた大規模実験により、Vision Wormholeが制御比較実験においてエンドツーエンドの実時間を短縮しつつ、標準的なテキストベースMASに匹敵する推論忠実度を維持することを実証した。コードはhttps://github.com/xz-liu/heterogeneous-latent-mas で公開されている。
English
Multi-Agent Systems (MAS) powered by Large Language Models have unlocked advanced collaborative reasoning, yet they remain shackled by the inefficiency of discrete text communication, which imposes significant runtime overhead and information quantization loss. While latent state transfer offers a high-bandwidth alternative, existing approaches either assume homogeneous sender-receiver architectures or rely on pair-specific learned translators, limiting scalability and modularity across diverse model families with disjoint manifolds. In this work, we propose the Vision Wormhole, a novel framework that repurposes the visual interface of Vision-Language Models (VLMs) to enable model-agnostic, text-free communication. By introducing a Universal Visual Codec, we map heterogeneous reasoning traces into a shared continuous latent space and inject them directly into the receiver's visual pathway, effectively treating the vision encoder as a universal port for inter-agent telepathy. Our framework adopts a hub-and-spoke topology to reduce pairwise alignment complexity from O(N^2) to O(N) and leverages a label-free, teacher-student distillation objective to align the high-speed visual channel with the robust reasoning patterns of the text pathway. Extensive experiments across heterogeneous model families (e.g., Qwen-VL, Gemma) demonstrate that the Vision Wormhole reduces end-to-end wall-clock time in controlled comparisons while maintaining reasoning fidelity comparable to standard text-based MAS. Code is available at https://github.com/xz-liu/heterogeneous-latent-mas
PDF11February 19, 2026