Zie Wat Ik Zie, Weet Wat Ik Denk: Dichte Latente Communicatie Tussen Heterogene Agenten

Samenvatting

Multi-agentsystemen communiceren meestal via tekst, wat een verliesgevende en dure decodeer- en hercodeerkost met zich meebrengt. KV-cachecommunicatie is een veelbelovend alternatief, maar het meeste eerdere werk is homogeen, waarbij duplicaten van hetzelfde model worden gebruikt, en vermijdt de centrale uitdaging van cross-model latente alignering; bestaande heterogene methoden zijn ook restrictief, nemen typisch gedeelde input aan en gebruiken overgedragen caches voornamelijk voor sturing. We bestuderen een fundamentelere vraag: kunnen heterogene agenten voldoende worden uitgelijnd om echte 'gedachtenlezing' uit te voeren en zowel over te dragen wat een agent ziet als hoe het denkt? Onze informatie-structuuranalyse onthult een dualiteit: contextbewuste overdracht wordt gedreven door schaarse redeneersignalen, terwijl contextonbewuste overdracht, waarbij de ontvanger geen input ziet, een dichte contextuele kennisbehoud vereist. Gemotiveerd door dit stellen we dichte alignering voor heterogene KV-cachecommunicatie voor via een lichtgewicht cross-model cachetransformatie en tweefasentraining: reconstructie gevolgd door generatie. Over alle zes richtingen van {Qwen3-4B, 8B, 14B} en zes in-domain en out-of-domain benchmarks, presteert onze methode beter dan eerdere heterogene baselines, evenaart of overtreft tekstcommunicatie in contextbewuste omgevingen met ruwweg 2 tot 3 keer lagere rekenkosten, en blijft effectief in contextonbewuste overdracht waar eerdere methoden falen.

English

Multi-agent systems communicate mostly through text, paying a lossy and expensive decode and re-encode cost. KV-cache communication is a promising alternative, yet most prior work is homogeneous, using duplicate copies of the same model, and avoids the central challenge of cross-model latent alignment; existing heterogeneous methods are also restrictive, typically assuming shared input and using transferred caches mainly for steering. We study a more fundamental question: can heterogeneous agents be aligned well enough to perform real "mind reading" and transfer both what one agent sees and how it thinks? Our information-structure analysis reveals a duality: context-aware transfer is driven by sparse reasoning signals, while context-unaware transfer, where the receiver sees no input, requires dense contextual knowledge preservation. Motivated by this, we propose dense alignment for heterogeneous KV-cache communication via a lightweight cross-model cache transformation and two-phase training: reconstruction followed by generation. Across all six directions of {Qwen3-4B, 8B, 14B} and six in-domain and out-of-domain benchmarks, our method outperforms prior heterogeneous baselines, matches or exceeds text communication in context-aware settings at roughly 2 to 3 times lower compute, and remains effective in context-unaware transfer where prior methods collapse.