Cache-to-Cache: Directe Semantische Communicatie Tussen Grote Taalmodellen

Samenvatting

Multi-LLM-systemen benutten de complementaire sterktes van diverse Large Language Models, waardoor prestaties en efficiëntie worden bereikt die niet haalbaar zijn met een enkel model. In bestaande ontwerpen communiceren LLM's via tekst, waardoor interne representaties worden omgezet in uitvoertokenreeksen. Dit proces leidt zowel tot verlies van rijke semantische informatie als tot latentie bij token-voor-token generatie. Gemotiveerd door deze beperkingen, vragen wij: Kunnen LLM's verder gaan dan tekstcommunicatie? Oracle-experimenten tonen aan dat het verrijken van de KV-Cache-semantiek de responskwaliteit kan verbeteren zonder de cachegrootte te vergroten, wat KV-Cache ondersteunt als een effectief medium voor inter-modelcommunicatie. Daarom stellen we Cache-to-Cache (C2C) voor, een nieuw paradigma voor directe semantische communicatie tussen LLM's. C2C gebruikt een neuraal netwerk om de KV-cache van het bronmodel te projecteren en te fuseren met die van het doelmodel, waardoor directe semantische overdracht mogelijk wordt. Een leerbaar gatingmechanisme selecteert de doellagen die baat hebben bij cachecommunicatie. Vergeleken met tekstcommunicatie benut C2C de diepe, gespecialiseerde semantiek van beide modellen, terwijl expliciete tussenliggende tekstgeneratie wordt vermeden. Experimenten tonen aan dat C2C een gemiddelde nauwkeurigheid bereikt die 8,5-10,5% hoger ligt dan die van individuele modellen. Het overtreft verder het tekstcommunicatieparadigma met ongeveer 3,0-5,0%, terwijl het een gemiddelde snelheidswinst van 2,0x in latentie oplevert. Onze code is beschikbaar op https://github.com/thu-nics/C2C.

English

Multi-LLM systems harness the complementary strengths of diverse Large Language Models, achieving performance and efficiency gains unattainable by a single model. In existing designs, LLMs communicate through text, forcing internal representations to be transformed into output token sequences. This process both loses rich semantic information and incurs token-by-token generation latency. Motivated by these limitations, we ask: Can LLMs communicate beyond text? Oracle experiments show that enriching the KV-Cache semantics can improve response quality without increasing cache size, supporting KV-Cache as an effective medium for inter-model communication. Thus, we propose Cache-to-Cache (C2C), a new paradigm for direct semantic communication between LLMs. C2C uses a neural network to project and fuse the source model's KV-cache with that of the target model to enable direct semantic transfer. A learnable gating mechanism selects the target layers that benefit from cache communication. Compared with text communication, C2C utilizes the deep, specialized semantics from both models, while avoiding explicit intermediate text generation. Experiments show that C2C achieves 8.5-10.5% higher average accuracy than individual models. It further outperforms the text communication paradigm by approximately 3.0-5.0%, while delivering an average 2.0x speedup in latency. Our code is available at https://github.com/thu-nics/C2C.

Cache-to-Cache: Directe Semantische Communicatie Tussen Grote Taalmodellen

Cache-to-Cache: Direct Semantic Communication Between Large Language Models

Samenvatting

Support