Voir ce que je vois, savoir ce que je pense : Communication latente dense entre agents hétérogènes

Résumé

Les systèmes multi-agents communiquent principalement par texte, ce qui implique un coût élevé de décodage et de ré-encodage avec perte d'information. La communication par cache KV constitue une alternative prometteuse, mais la plupart des travaux antérieurs sont homogènes, utilisant des copies identiques du même modèle, et évitent le défi central de l'alignement latent entre modèles ; les méthodes hétérogènes existantes sont également restrictives, supposant généralement une entrée partagée et utilisant les caches transférés principalement pour l'orientation. Nous étudions une question plus fondamentale : des agents hétérogènes peuvent-ils être suffisamment alignés pour effectuer une véritable « lecture de pensée » et transférer à la fois ce qu'un agent voit et comment il pense ? Notre analyse de la structure de l'information révèle une dualité : le transfert contextuel est piloté par des signaux de raisonnement épars, tandis que le transfert non contextuel, où le récepteur ne voit aucune entrée, nécessite une préservation dense des connaissances contextuelles. Motivés par cette observation, nous proposons un alignement dense pour la communication hétérogène par cache KV via une transformation légère de cache inter-modèles et un entraînement en deux phases : reconstruction suivie de génération. Sur l'ensemble des six directions de {Qwen3-4B, 8B, 14B} et six benchmarks intra-domaine et hors domaine, notre méthode surpasse les bases hétérogènes antérieures, atteint ou dépasse la communication textuelle dans les contextes contextuels avec un coût de calcul environ 2 à 3 fois inférieur, et reste efficace dans le transfert non contextuel où les méthodes précédentes échouent.

English

Multi-agent systems communicate mostly through text, paying a lossy and expensive decode and re-encode cost. KV-cache communication is a promising alternative, yet most prior work is homogeneous, using duplicate copies of the same model, and avoids the central challenge of cross-model latent alignment; existing heterogeneous methods are also restrictive, typically assuming shared input and using transferred caches mainly for steering. We study a more fundamental question: can heterogeneous agents be aligned well enough to perform real "mind reading" and transfer both what one agent sees and how it thinks? Our information-structure analysis reveals a duality: context-aware transfer is driven by sparse reasoning signals, while context-unaware transfer, where the receiver sees no input, requires dense contextual knowledge preservation. Motivated by this, we propose dense alignment for heterogeneous KV-cache communication via a lightweight cross-model cache transformation and two-phase training: reconstruction followed by generation. Across all six directions of {Qwen3-4B, 8B, 14B} and six in-domain and out-of-domain benchmarks, our method outperforms prior heterogeneous baselines, matches or exceeds text communication in context-aware settings at roughly 2 to 3 times lower compute, and remains effective in context-unaware transfer where prior methods collapse.