Sehe, was ich sehe, wisse, was ich denke: Dichte latente Kommunikation zwischen heterogenen Agenten

Zusammenfassung

Multi-Agenten-Systeme kommunizieren meist über Text, was mit verlustbehafteten und teuren Dekodierungs- und Neukodierungskosten verbunden ist. Die KV-Cache-Kommunikation stellt eine vielversprechende Alternative dar, doch die meiste bisherige Arbeit ist homogen, verwendet identische Kopien desselben Modells und umgeht die zentrale Herausforderung der latenten Ausrichtung zwischen Modellen; bestehende heterogene Methoden sind ebenfalls restriktiv, da sie typischerweise gemeinsame Eingaben voraussetzen und übertragene Caches hauptsächlich zur Steuerung nutzen. Wir untersuchen eine grundlegendere Frage: Können heterogene Agenten ausreichend gut ausgerichtet werden, um echtes „Gedankenlesen" zu ermöglichen und sowohl das, was ein Agent sieht, als auch die Art und Weise, wie er denkt, zu übertragen? Unsere informationsstrukturelle Analyse offenbart eine Dualität: Kontextbewusste Übertragung wird von spärlichen Reasoning-Signalen angetrieben, während kontextunbewusste Übertragung, bei der der Empfänger keine Eingabe sieht, die Bewahrung dichten kontextuellen Wissens erfordert. Motiviert durch diese Erkenntnis schlagen wir eine dichte Ausrichtung für heterogene KV-Cache-Kommunikation vor, mittels einer leichten modellübergreifenden Cache-Transformation und zweiphasigem Training: Rekonstruktion gefolgt von Generierung. Über alle sechs Richtungen von {Qwen3-4B, 8B, 14B} und sechs In-Domain- und Out-of-Domain-Benchmarks hinweg übertrifft unsere Methode frühere heterogene Baselines, erreicht oder übertrifft Textkommunikation in kontextbewussten Szenarien bei etwa 2- bis 3-fach geringerem Rechenaufwand und bleibt in kontextunbewusster Übertragung effektiv, wo frühere Methoden versagen.

English

Multi-agent systems communicate mostly through text, paying a lossy and expensive decode and re-encode cost. KV-cache communication is a promising alternative, yet most prior work is homogeneous, using duplicate copies of the same model, and avoids the central challenge of cross-model latent alignment; existing heterogeneous methods are also restrictive, typically assuming shared input and using transferred caches mainly for steering. We study a more fundamental question: can heterogeneous agents be aligned well enough to perform real "mind reading" and transfer both what one agent sees and how it thinks? Our information-structure analysis reveals a duality: context-aware transfer is driven by sparse reasoning signals, while context-unaware transfer, where the receiver sees no input, requires dense contextual knowledge preservation. Motivated by this, we propose dense alignment for heterogeneous KV-cache communication via a lightweight cross-model cache transformation and two-phase training: reconstruction followed by generation. Across all six directions of {Qwen3-4B, 8B, 14B} and six in-domain and out-of-domain benchmarks, our method outperforms prior heterogeneous baselines, matches or exceeds text communication in context-aware settings at roughly 2 to 3 times lower compute, and remains effective in context-unaware transfer where prior methods collapse.