Veja o que eu vejo, saiba o que eu penso: Comunicação latente densa entre agentes heterogêneos

Resumo

Sistemas multiagente comunicam-se principalmente por texto, arcando com um custo de decodificação e recodificação que envolve perdas e é computacionalmente caro. A comunicação por cache KV é uma alternativa promissora, porém a maioria dos trabalhos anteriores é homogênea, utilizando cópias duplicadas do mesmo modelo, e evita o desafio central do alinhamento latente entre modelos; métodos heterogêneos existentes também são restritivos, normalmente assumindo entrada compartilhada e usando caches transferidos principalmente para direcionamento. Estudamos uma questão mais fundamental: agentes heterogêneos podem ser alinhados suficientemente bem para realizar uma verdadeira "leitura mental" e transferir tanto o que um agente vê quanto como ele pensa? Nossa análise de estrutura informacional revela uma dualidade: a transferência ciente do contexto é orientada por sinais de raciocínio esparsos, enquanto a transferência não ciente do contexto, onde o receptor não vê entrada alguma, requer preservação densa do conhecimento contextual. Motivados por isso, propomos alinhamento denso para comunicação heterogênea de cache KV por meio de uma transformação de cache leve entre modelos e treinamento em duas fases: reconstrução seguida de geração. Em todas as seis direções de {Qwen3-4B, 8B, 14B} e seis benchmarks dentro e fora do domínio, nosso método supera as linhas de base heterogêneas anteriores, iguala ou excede a comunicação por texto em configurações cientes do contexto com aproximadamente 2 a 3 vezes menos custo computacional, e permanece eficaz na transferência não ciente do contexto, onde métodos anteriores colapsam.

English

Multi-agent systems communicate mostly through text, paying a lossy and expensive decode and re-encode cost. KV-cache communication is a promising alternative, yet most prior work is homogeneous, using duplicate copies of the same model, and avoids the central challenge of cross-model latent alignment; existing heterogeneous methods are also restrictive, typically assuming shared input and using transferred caches mainly for steering. We study a more fundamental question: can heterogeneous agents be aligned well enough to perform real "mind reading" and transfer both what one agent sees and how it thinks? Our information-structure analysis reveals a duality: context-aware transfer is driven by sparse reasoning signals, while context-unaware transfer, where the receiver sees no input, requires dense contextual knowledge preservation. Motivated by this, we propose dense alignment for heterogeneous KV-cache communication via a lightweight cross-model cache transformation and two-phase training: reconstruction followed by generation. Across all six directions of {Qwen3-4B, 8B, 14B} and six in-domain and out-of-domain benchmarks, our method outperforms prior heterogeneous baselines, matches or exceeds text communication in context-aware settings at roughly 2 to 3 times lower compute, and remains effective in context-unaware transfer where prior methods collapse.