ChatPaper.aiChatPaper

Cache-a-Cache: Comunicación Semántica Directa entre Modelos de Lenguaje de Gran Escala

Cache-to-Cache: Direct Semantic Communication Between Large Language Models

October 3, 2025
Autores: Tianyu Fu, Zihan Min, Hanling Zhang, Jichao Yan, Guohao Dai, Wanli Ouyang, Yu Wang
cs.AI

Resumen

Los sistemas Multi-LLM aprovechan las fortalezas complementarias de diversos Modelos de Lenguaje de Gran Escala (LLM), logrando mejoras en rendimiento y eficiencia inalcanzables por un solo modelo. En los diseños existentes, los LLM se comunican a través de texto, lo que obliga a transformar las representaciones internas en secuencias de tokens de salida. Este proceso no solo pierde información semántica rica, sino que también incurre en latencia generada token por token. Motivados por estas limitaciones, nos preguntamos: ¿Pueden los LLM comunicarse más allá del texto? Experimentos oráculo muestran que enriquecer la semántica del KV-Cache puede mejorar la calidad de la respuesta sin aumentar el tamaño de la caché, respaldando al KV-Cache como un medio efectivo para la comunicación entre modelos. Por lo tanto, proponemos Cache-to-Cache (C2C), un nuevo paradigma para la comunicación semántica directa entre LLM. C2C utiliza una red neuronal para proyectar y fusionar el KV-cache del modelo fuente con el del modelo objetivo, permitiendo una transferencia semántica directa. Un mecanismo de compuerta aprendible selecciona las capas objetivo que se benefician de la comunicación de caché. En comparación con la comunicación textual, C2C utiliza la semántica profunda y especializada de ambos modelos, evitando la generación explícita de texto intermedio. Los experimentos muestran que C2C logra un 8.5-10.5% más de precisión promedio que los modelos individuales. Además, supera el paradigma de comunicación textual en aproximadamente un 3.0-5.0%, mientras que ofrece una aceleración promedio de 2.0x en la latencia. Nuestro código está disponible en https://github.com/thu-nics/C2C.
English
Multi-LLM systems harness the complementary strengths of diverse Large Language Models, achieving performance and efficiency gains unattainable by a single model. In existing designs, LLMs communicate through text, forcing internal representations to be transformed into output token sequences. This process both loses rich semantic information and incurs token-by-token generation latency. Motivated by these limitations, we ask: Can LLMs communicate beyond text? Oracle experiments show that enriching the KV-Cache semantics can improve response quality without increasing cache size, supporting KV-Cache as an effective medium for inter-model communication. Thus, we propose Cache-to-Cache (C2C), a new paradigm for direct semantic communication between LLMs. C2C uses a neural network to project and fuse the source model's KV-cache with that of the target model to enable direct semantic transfer. A learnable gating mechanism selects the target layers that benefit from cache communication. Compared with text communication, C2C utilizes the deep, specialized semantics from both models, while avoiding explicit intermediate text generation. Experiments show that C2C achieves 8.5-10.5% higher average accuracy than individual models. It further outperforms the text communication paradigm by approximately 3.0-5.0%, while delivering an average 2.0x speedup in latency. Our code is available at https://github.com/thu-nics/C2C.
PDF815October 9, 2025