ChatPaper.aiChatPaper

Cache-to-Cache: Comunicação Semântica Direta Entre Modelos de Linguagem de Grande Escala

Cache-to-Cache: Direct Semantic Communication Between Large Language Models

October 3, 2025
Autores: Tianyu Fu, Zihan Min, Hanling Zhang, Jichao Yan, Guohao Dai, Wanli Ouyang, Yu Wang
cs.AI

Resumo

Sistemas Multi-LLM aproveitam os pontos fortes complementares de diversos Modelos de Linguagem de Grande Escala (LLMs), alcançando ganhos de desempenho e eficiência inatingíveis por um único modelo. Nos designs existentes, os LLMs se comunicam por meio de texto, forçando as representações internas a serem transformadas em sequências de tokens de saída. Esse processo tanto perde informações semânticas ricas quanto incorre em latência de geração token por token. Motivados por essas limitações, perguntamos: Os LLMs podem se comunicar além do texto? Experimentos oráculos mostram que enriquecer a semântica do KV-Cache pode melhorar a qualidade da resposta sem aumentar o tamanho do cache, apoiando o KV-Cache como um meio eficaz de comunicação entre modelos. Assim, propomos o Cache-to-Cache (C2C), um novo paradigma para comunicação semântica direta entre LLMs. O C2C usa uma rede neural para projetar e fundir o KV-cache do modelo de origem com o do modelo de destino, permitindo a transferência semântica direta. Um mecanismo de portão aprendível seleciona as camadas de destino que se beneficiam da comunicação via cache. Em comparação com a comunicação por texto, o C2C utiliza a semântica profunda e especializada de ambos os modelos, evitando a geração explícita de texto intermediário. Experimentos mostram que o C2C alcança uma precisão média 8,5-10,5% maior do que os modelos individuais. Ele ainda supera o paradigma de comunicação por texto em aproximadamente 3,0-5,0%, enquanto oferece um aumento de velocidade médio de 2,0x na latência. Nosso código está disponível em https://github.com/thu-nics/C2C.
English
Multi-LLM systems harness the complementary strengths of diverse Large Language Models, achieving performance and efficiency gains unattainable by a single model. In existing designs, LLMs communicate through text, forcing internal representations to be transformed into output token sequences. This process both loses rich semantic information and incurs token-by-token generation latency. Motivated by these limitations, we ask: Can LLMs communicate beyond text? Oracle experiments show that enriching the KV-Cache semantics can improve response quality without increasing cache size, supporting KV-Cache as an effective medium for inter-model communication. Thus, we propose Cache-to-Cache (C2C), a new paradigm for direct semantic communication between LLMs. C2C uses a neural network to project and fuse the source model's KV-cache with that of the target model to enable direct semantic transfer. A learnable gating mechanism selects the target layers that benefit from cache communication. Compared with text communication, C2C utilizes the deep, specialized semantics from both models, while avoiding explicit intermediate text generation. Experiments show that C2C achieves 8.5-10.5% higher average accuracy than individual models. It further outperforms the text communication paradigm by approximately 3.0-5.0%, while delivering an average 2.0x speedup in latency. Our code is available at https://github.com/thu-nics/C2C.
PDF918October 9, 2025