Il Wormhole Visivo: Comunicazione nello Spazio Latente nei Sistemi Multi-Agente Eterogenei

Abstract

I sistemi multi-agente (MAS) alimentati da Large Language Model hanno sbloccato capacità di ragionamento collaborativo avanzate, ma rimangono vincolati dall'inefficienza della comunicazione testuale discreta, che comporta un significativo sovraccarico computazionale e una perdita di informazione per quantizzazione. Sebbene il trasferimento di stati latenti offra un'alternativa a larga banda, gli approcci esistenti presuppongono architetture omogenee mittente-destinatario o si basano su traduttori appresi specifici per coppie, limitando scalabilità e modularità tra diverse famiglie di modelli con varietà disgiunte. In questo lavoro proponiamo Vision Wormhole, un framework innovativo che riutilizza l'interfaccia visiva dei Vision-Language Model (VLM) per abilitare una comunicazione indipendente dal testo e agnostica al modello. Introducendo un Codec Visivo Universale, mappiamo tracce eterogenee di ragionamento in uno spazio latente continuo condiviso e le iniettiamo direttamente nel pathway visivo del ricevitore, trattando di fatto l'encoder visivo come una porta universale per la telepatia inter-agente. Il nostro framework adotta una topologia hub-and-spoke per ridurre la complessità di allineamento a coppie da O(N²) a O(N) e sfrutta un obiettivo di distillazione teacher-student senza etichette per allineare il canale visivo ad alta velocità con i pattern di ragionamento robusti del pathway testuale. Esperimenti estesi su famiglie di modelli eterogenee (ad esempio Qwen-VL, Gemma) dimostrano che Vision Wormhole riduce il tempo di esecuzione end-to-end in confronti controllati, mantenendo una fedeltà di ragionamento comparabile ai MAS testuali standard. Il codice è disponibile all'indirizzo https://github.com/xz-liu/heterogeneous-latent-mas

English

Multi-Agent Systems (MAS) powered by Large Language Models have unlocked advanced collaborative reasoning, yet they remain shackled by the inefficiency of discrete text communication, which imposes significant runtime overhead and information quantization loss. While latent state transfer offers a high-bandwidth alternative, existing approaches either assume homogeneous sender-receiver architectures or rely on pair-specific learned translators, limiting scalability and modularity across diverse model families with disjoint manifolds. In this work, we propose the Vision Wormhole, a novel framework that repurposes the visual interface of Vision-Language Models (VLMs) to enable model-agnostic, text-free communication. By introducing a Universal Visual Codec, we map heterogeneous reasoning traces into a shared continuous latent space and inject them directly into the receiver's visual pathway, effectively treating the vision encoder as a universal port for inter-agent telepathy. Our framework adopts a hub-and-spoke topology to reduce pairwise alignment complexity from O(N^2) to O(N) and leverages a label-free, teacher-student distillation objective to align the high-speed visual channel with the robust reasoning patterns of the text pathway. Extensive experiments across heterogeneous model families (e.g., Qwen-VL, Gemma) demonstrate that the Vision Wormhole reduces end-to-end wall-clock time in controlled comparisons while maintaining reasoning fidelity comparable to standard text-based MAS. Code is available at https://github.com/xz-liu/heterogeneous-latent-mas

Il Wormhole Visivo: Comunicazione nello Spazio Latente nei Sistemi Multi-Agente Eterogenei

The Vision Wormhole: Latent-Space Communication in Heterogeneous Multi-Agent Systems

Abstract

Support