Cache-to-Cache: Direkte semantische Kommunikation zwischen großen Sprachmodellen

papers.abstract

Multi-LLM-Systeme nutzen die komplementären Stärken verschiedener Large Language Models (LLMs), um Leistungs- und Effizienzsteigerungen zu erzielen, die mit einem einzelnen Modell nicht erreichbar sind. In bestehenden Designs kommunizieren LLMs über Text, wodurch interne Repräsentationen in Ausgabe-Token-Sequenzen umgewandelt werden müssen. Dieser Prozess führt sowohl zum Verlust von reichhaltigen semantischen Informationen als auch zu einer Token-für-Token-Generierungslatenz. Angesichts dieser Einschränkungen stellen wir die Frage: Können LLMs über Text hinaus kommunizieren? Oracle-Experimente zeigen, dass die Anreicherung der KV-Cache-Semantik die Antwortqualität verbessern kann, ohne die Cache-Größe zu erhöhen, was den KV-Cache als effektives Medium für die Kommunikation zwischen Modellen unterstützt. Daher schlagen wir Cache-to-Cache (C2C) vor, ein neues Paradigma für die direkte semantische Kommunikation zwischen LLMs. C2C verwendet ein neuronales Netzwerk, um den KV-Cache des Quellmodells mit dem des Zielmodells zu projizieren und zu fusionieren, um einen direkten semantischen Transfer zu ermöglichen. Ein lernbarer Gating-Mechanismus wählt die Zielschichten aus, die von der Cache-Kommunikation profitieren. Im Vergleich zur Textkommunikation nutzt C2C die tiefen, spezialisierten Semantiken beider Modelle, während die explizite Generierung von Zwischentext vermieden wird. Experimente zeigen, dass C2C eine durchschnittliche Genauigkeit von 8,5-10,5 % höher als einzelne Modelle erreicht. Es übertrifft das Textkommunikationsparadigma um etwa 3,0-5,0 % und bietet eine durchschnittliche Beschleunigung der Latenz um das 2,0-fache. Unser Code ist verfügbar unter https://github.com/thu-nics/C2C.

English

Multi-LLM systems harness the complementary strengths of diverse Large Language Models, achieving performance and efficiency gains unattainable by a single model. In existing designs, LLMs communicate through text, forcing internal representations to be transformed into output token sequences. This process both loses rich semantic information and incurs token-by-token generation latency. Motivated by these limitations, we ask: Can LLMs communicate beyond text? Oracle experiments show that enriching the KV-Cache semantics can improve response quality without increasing cache size, supporting KV-Cache as an effective medium for inter-model communication. Thus, we propose Cache-to-Cache (C2C), a new paradigm for direct semantic communication between LLMs. C2C uses a neural network to project and fuse the source model's KV-cache with that of the target model to enable direct semantic transfer. A learnable gating mechanism selects the target layers that benefit from cache communication. Compared with text communication, C2C utilizes the deep, specialized semantics from both models, while avoiding explicit intermediate text generation. Experiments show that C2C achieves 8.5-10.5% higher average accuracy than individual models. It further outperforms the text communication paradigm by approximately 3.0-5.0%, while delivering an average 2.0x speedup in latency. Our code is available at https://github.com/thu-nics/C2C.

Cache-to-Cache: Direkte semantische Kommunikation zwischen großen Sprachmodellen

Cache-to-Cache: Direct Semantic Communication Between Large Language Models

papers.abstract

Support