Cache-to-Cache: Comunicazione Semantica Diretta tra Modelli Linguistici di Grandi Dimensioni
Cache-to-Cache: Direct Semantic Communication Between Large Language Models
October 3, 2025
Autori: Tianyu Fu, Zihan Min, Hanling Zhang, Jichao Yan, Guohao Dai, Wanli Ouyang, Yu Wang
cs.AI
Abstract
I sistemi Multi-LLM sfruttano i punti di forza complementari di diversi modelli linguistici di grandi dimensioni (Large Language Models, LLM), raggiungendo livelli di prestazione ed efficienza irraggiungibili da un singolo modello. Negli approcci esistenti, i LLM comunicano tramite testo, costringendo le rappresentazioni interne a essere trasformate in sequenze di token in uscita. Questo processo comporta sia la perdita di ricche informazioni semantiche sia una latenza generata token per token. Spinti da queste limitazioni, ci chiediamo: i LLM possono comunicare oltre il testo? Esperimenti preliminari dimostrano che arricchire la semantica della KV-Cache può migliorare la qualità delle risposte senza aumentare le dimensioni della cache, supportando la KV-Cache come mezzo efficace per la comunicazione tra modelli. Proponiamo quindi Cache-to-Cache (C2C), un nuovo paradigma per la comunicazione semantica diretta tra LLM. C2C utilizza una rete neurale per proiettare e fondere la KV-Cache del modello sorgente con quella del modello target, abilitando un trasferimento semantico diretto. Un meccanismo di gate apprendibile seleziona i livelli target che beneficiano della comunicazione tramite cache. Rispetto alla comunicazione testuale, C2C sfrutta la semantica profonda e specializzata di entrambi i modelli, evitando la generazione esplicita di testo intermedio. Gli esperimenti mostrano che C2C raggiunge un'accuratezza media superiore dell'8,5-10,5% rispetto ai singoli modelli. Inoltre, supera il paradigma di comunicazione testuale di circa il 3,0-5,0%, offrendo un miglioramento medio della latenza di 2,0x. Il nostro codice è disponibile all'indirizzo https://github.com/thu-nics/C2C.
English
Multi-LLM systems harness the complementary strengths of diverse Large
Language Models, achieving performance and efficiency gains unattainable by a
single model. In existing designs, LLMs communicate through text, forcing
internal representations to be transformed into output token sequences. This
process both loses rich semantic information and incurs token-by-token
generation latency. Motivated by these limitations, we ask: Can LLMs
communicate beyond text? Oracle experiments show that enriching the KV-Cache
semantics can improve response quality without increasing cache size,
supporting KV-Cache as an effective medium for inter-model communication. Thus,
we propose Cache-to-Cache (C2C), a new paradigm for direct semantic
communication between LLMs. C2C uses a neural network to project and fuse the
source model's KV-cache with that of the target model to enable direct semantic
transfer. A learnable gating mechanism selects the target layers that benefit
from cache communication. Compared with text communication, C2C utilizes the
deep, specialized semantics from both models, while avoiding explicit
intermediate text generation. Experiments show that C2C achieves 8.5-10.5%
higher average accuracy than individual models. It further outperforms the text
communication paradigm by approximately 3.0-5.0%, while delivering an average
2.0x speedup in latency. Our code is available at
https://github.com/thu-nics/C2C.