Cache-à-Cache : Communication Sémantique Directe Entre Modèles de Langage à Grande Échelle

papers.abstract

Les systèmes Multi-LLM exploitent les forces complémentaires de divers modèles de langage de grande taille (LLM), atteignant des gains de performance et d'efficacité inaccessibles à un modèle unique. Dans les conceptions existantes, les LLM communiquent via du texte, forçant les représentations internes à être transformées en séquences de tokens en sortie. Ce processus entraîne à la fois une perte d'informations sémantiques riches et une latence de génération token par token. Motivés par ces limitations, nous posons la question suivante : Les LLM peuvent-ils communiquer au-delà du texte ? Des expériences oracles montrent qu'enrichir la sémantique du KV-Cache peut améliorer la qualité des réponses sans augmenter la taille du cache, soutenant le KV-Cache comme un médium efficace pour la communication inter-modèles. Ainsi, nous proposons Cache-to-Cache (C2C), un nouveau paradigme pour la communication sémantique directe entre LLM. C2C utilise un réseau neuronal pour projeter et fusionner le KV-cache du modèle source avec celui du modèle cible, permettant un transfert sémantique direct. Un mécanisme de gating apprenable sélectionne les couches cibles qui bénéficient de la communication par cache. Par rapport à la communication textuelle, C2C utilise la sémantique profonde et spécialisée des deux modèles, tout en évitant la génération explicite de texte intermédiaire. Les expériences montrent que C2C atteint une précision moyenne de 8,5 à 10,5 % supérieure à celle des modèles individuels. Il surpasse en outre le paradigme de communication textuelle d'environ 3,0 à 5,0 %, tout en offrant une accélération moyenne de la latence de 2,0x. Notre code est disponible à l'adresse https://github.com/thu-nics/C2C.

English

Multi-LLM systems harness the complementary strengths of diverse Large Language Models, achieving performance and efficiency gains unattainable by a single model. In existing designs, LLMs communicate through text, forcing internal representations to be transformed into output token sequences. This process both loses rich semantic information and incurs token-by-token generation latency. Motivated by these limitations, we ask: Can LLMs communicate beyond text? Oracle experiments show that enriching the KV-Cache semantics can improve response quality without increasing cache size, supporting KV-Cache as an effective medium for inter-model communication. Thus, we propose Cache-to-Cache (C2C), a new paradigm for direct semantic communication between LLMs. C2C uses a neural network to project and fuse the source model's KV-cache with that of the target model to enable direct semantic transfer. A learnable gating mechanism selects the target layers that benefit from cache communication. Compared with text communication, C2C utilizes the deep, specialized semantics from both models, while avoiding explicit intermediate text generation. Experiments show that C2C achieves 8.5-10.5% higher average accuracy than individual models. It further outperforms the text communication paradigm by approximately 3.0-5.0%, while delivering an average 2.0x speedup in latency. Our code is available at https://github.com/thu-nics/C2C.

Cache-à-Cache : Communication Sémantique Directe Entre Modèles de Langage à Grande Échelle

Cache-to-Cache: Direct Semantic Communication Between Large Language Models

papers.abstract

Support