Cache-to-Cache: Comunicazione Semantica Diretta tra Modelli Linguistici di Grandi Dimensioni

Abstract

I sistemi Multi-LLM sfruttano i punti di forza complementari di diversi modelli linguistici di grandi dimensioni (Large Language Models, LLM), raggiungendo livelli di prestazione ed efficienza irraggiungibili da un singolo modello. Negli approcci esistenti, i LLM comunicano tramite testo, costringendo le rappresentazioni interne a essere trasformate in sequenze di token in uscita. Questo processo comporta sia la perdita di ricche informazioni semantiche sia una latenza generata token per token. Spinti da queste limitazioni, ci chiediamo: i LLM possono comunicare oltre il testo? Esperimenti preliminari dimostrano che arricchire la semantica della KV-Cache può migliorare la qualità delle risposte senza aumentare le dimensioni della cache, supportando la KV-Cache come mezzo efficace per la comunicazione tra modelli. Proponiamo quindi Cache-to-Cache (C2C), un nuovo paradigma per la comunicazione semantica diretta tra LLM. C2C utilizza una rete neurale per proiettare e fondere la KV-Cache del modello sorgente con quella del modello target, abilitando un trasferimento semantico diretto. Un meccanismo di gate apprendibile seleziona i livelli target che beneficiano della comunicazione tramite cache. Rispetto alla comunicazione testuale, C2C sfrutta la semantica profonda e specializzata di entrambi i modelli, evitando la generazione esplicita di testo intermedio. Gli esperimenti mostrano che C2C raggiunge un'accuratezza media superiore dell'8,5-10,5% rispetto ai singoli modelli. Inoltre, supera il paradigma di comunicazione testuale di circa il 3,0-5,0%, offrendo un miglioramento medio della latenza di 2,0x. Il nostro codice è disponibile all'indirizzo https://github.com/thu-nics/C2C.

English

Multi-LLM systems harness the complementary strengths of diverse Large Language Models, achieving performance and efficiency gains unattainable by a single model. In existing designs, LLMs communicate through text, forcing internal representations to be transformed into output token sequences. This process both loses rich semantic information and incurs token-by-token generation latency. Motivated by these limitations, we ask: Can LLMs communicate beyond text? Oracle experiments show that enriching the KV-Cache semantics can improve response quality without increasing cache size, supporting KV-Cache as an effective medium for inter-model communication. Thus, we propose Cache-to-Cache (C2C), a new paradigm for direct semantic communication between LLMs. C2C uses a neural network to project and fuse the source model's KV-cache with that of the target model to enable direct semantic transfer. A learnable gating mechanism selects the target layers that benefit from cache communication. Compared with text communication, C2C utilizes the deep, specialized semantics from both models, while avoiding explicit intermediate text generation. Experiments show that C2C achieves 8.5-10.5% higher average accuracy than individual models. It further outperforms the text communication paradigm by approximately 3.0-5.0%, while delivering an average 2.0x speedup in latency. Our code is available at https://github.com/thu-nics/C2C.

Cache-to-Cache: Comunicazione Semantica Diretta tra Modelli Linguistici di Grandi Dimensioni

Cache-to-Cache: Direct Semantic Communication Between Large Language Models

Abstract

Support