Cache-à-Cache : Communication Sémantique Directe Entre Modèles de Langage à Grande Échelle
Cache-to-Cache: Direct Semantic Communication Between Large Language Models
October 3, 2025
papers.authors: Tianyu Fu, Zihan Min, Hanling Zhang, Jichao Yan, Guohao Dai, Wanli Ouyang, Yu Wang
cs.AI
papers.abstract
Les systèmes Multi-LLM exploitent les forces complémentaires de divers modèles de langage de grande taille (LLM), atteignant des gains de performance et d'efficacité inaccessibles à un modèle unique. Dans les conceptions existantes, les LLM communiquent via du texte, forçant les représentations internes à être transformées en séquences de tokens en sortie. Ce processus entraîne à la fois une perte d'informations sémantiques riches et une latence de génération token par token. Motivés par ces limitations, nous posons la question suivante : Les LLM peuvent-ils communiquer au-delà du texte ? Des expériences oracles montrent qu'enrichir la sémantique du KV-Cache peut améliorer la qualité des réponses sans augmenter la taille du cache, soutenant le KV-Cache comme un médium efficace pour la communication inter-modèles. Ainsi, nous proposons Cache-to-Cache (C2C), un nouveau paradigme pour la communication sémantique directe entre LLM. C2C utilise un réseau neuronal pour projeter et fusionner le KV-cache du modèle source avec celui du modèle cible, permettant un transfert sémantique direct. Un mécanisme de gating apprenable sélectionne les couches cibles qui bénéficient de la communication par cache. Par rapport à la communication textuelle, C2C utilise la sémantique profonde et spécialisée des deux modèles, tout en évitant la génération explicite de texte intermédiaire. Les expériences montrent que C2C atteint une précision moyenne de 8,5 à 10,5 % supérieure à celle des modèles individuels. Il surpasse en outre le paradigme de communication textuelle d'environ 3,0 à 5,0 %, tout en offrant une accélération moyenne de la latence de 2,0x. Notre code est disponible à l'adresse https://github.com/thu-nics/C2C.
English
Multi-LLM systems harness the complementary strengths of diverse Large
Language Models, achieving performance and efficiency gains unattainable by a
single model. In existing designs, LLMs communicate through text, forcing
internal representations to be transformed into output token sequences. This
process both loses rich semantic information and incurs token-by-token
generation latency. Motivated by these limitations, we ask: Can LLMs
communicate beyond text? Oracle experiments show that enriching the KV-Cache
semantics can improve response quality without increasing cache size,
supporting KV-Cache as an effective medium for inter-model communication. Thus,
we propose Cache-to-Cache (C2C), a new paradigm for direct semantic
communication between LLMs. C2C uses a neural network to project and fuse the
source model's KV-cache with that of the target model to enable direct semantic
transfer. A learnable gating mechanism selects the target layers that benefit
from cache communication. Compared with text communication, C2C utilizes the
deep, specialized semantics from both models, while avoiding explicit
intermediate text generation. Experiments show that C2C achieves 8.5-10.5%
higher average accuracy than individual models. It further outperforms the text
communication paradigm by approximately 3.0-5.0%, while delivering an average
2.0x speedup in latency. Our code is available at
https://github.com/thu-nics/C2C.