Ve lo que veo, sabe lo que pienso: Comunicación Latente Densa entre Agentes Heterogéneos

Resumen

Los sistemas multiagente se comunican principalmente a través de texto, lo que implica un costoso proceso de decodificación y recodificación con pérdida de información. La comunicación mediante caché KV es una alternativa prometedora; sin embargo, la mayoría de los trabajos previos son homogéneos, utilizando copias duplicadas del mismo modelo, y evitan el desafío central de la alineación latente entre modelos. Los métodos heterogéneos existentes también son restrictivos, ya que generalmente asumen una entrada compartida y utilizan las cachés transferidas principalmente para dirigir el proceso. En este trabajo, abordamos una pregunta más fundamental: ¿pueden los agentes heterogéneos alinearse lo suficientemente bien como para realizar una auténtica "lectura de mente" y transferir tanto lo que un agente ve como cómo piensa? Nuestro análisis de la estructura de la información revela una dualidad: la transferencia sensible al contexto se impulsa mediante señales de razonamiento dispersas, mientras que la transferencia insensible al contexto, donde el receptor no ve ninguna entrada, requiere la preservación densa del conocimiento contextual. Motivados por esto, proponemos una alineación densa para la comunicación heterogénea mediante caché KV, a través de una transformación ligera de caché entre modelos y un entrenamiento en dos fases: primero reconstrucción y luego generación. En las seis direcciones de {Qwen3-4B, 8B, 14B} y seis conjuntos de referencia dentro y fuera del dominio, nuestro método supera a las líneas base heterogéneas previas, iguala o supera la comunicación textual en configuraciones sensibles al contexto con un costo computacional aproximadamente 2 o 3 veces menor, y sigue siendo efectivo en la transferencia insensible al contexto, donde los métodos anteriores colapsan.

English

Multi-agent systems communicate mostly through text, paying a lossy and expensive decode and re-encode cost. KV-cache communication is a promising alternative, yet most prior work is homogeneous, using duplicate copies of the same model, and avoids the central challenge of cross-model latent alignment; existing heterogeneous methods are also restrictive, typically assuming shared input and using transferred caches mainly for steering. We study a more fundamental question: can heterogeneous agents be aligned well enough to perform real "mind reading" and transfer both what one agent sees and how it thinks? Our information-structure analysis reveals a duality: context-aware transfer is driven by sparse reasoning signals, while context-unaware transfer, where the receiver sees no input, requires dense contextual knowledge preservation. Motivated by this, we propose dense alignment for heterogeneous KV-cache communication via a lightweight cross-model cache transformation and two-phase training: reconstruction followed by generation. Across all six directions of {Qwen3-4B, 8B, 14B} and six in-domain and out-of-domain benchmarks, our method outperforms prior heterogeneous baselines, matches or exceeds text communication in context-aware settings at roughly 2 to 3 times lower compute, and remains effective in context-unaware transfer where prior methods collapse.