캐시-투-캐시: 대규모 언어 모델 간의 직접적인 의미론적 통신
Cache-to-Cache: Direct Semantic Communication Between Large Language Models
October 3, 2025
저자: Tianyu Fu, Zihan Min, Hanling Zhang, Jichao Yan, Guohao Dai, Wanli Ouyang, Yu Wang
cs.AI
초록
멀티-LLM 시스템은 다양한 대형 언어 모델(LLM)의 상호 보완적 강점을 활용하여 단일 모델로는 달성할 수 없는 성능과 효율성 향상을 이룹니다. 기존 설계에서 LLM들은 텍스트를 통해 소통하며, 내부 표현을 출력 토큰 시퀀스로 변환해야 합니다. 이 과정은 풍부한 의미 정보를 잃게 하고 토큰별 생성 지연을 초래합니다. 이러한 한계를 바탕으로, 우리는 다음과 같은 질문을 던집니다: LLM이 텍스트를 넘어 소통할 수 있을까? 오라클 실험은 KV-Cache의 의미를 풍부하게 함으로써 캐시 크기를 늘리지 않고도 응답 품질을 개선할 수 있음을 보여주며, KV-Cache가 모델 간 소통의 효과적인 매체임을 입증합니다. 따라서 우리는 LLM 간 직접적인 의미 소통을 위한 새로운 패러다임인 Cache-to-Cache(C2C)를 제안합니다. C2C는 신경망을 사용하여 소스 모델의 KV-Cache를 타겟 모델의 KV-Cache에 투영하고 융합함으로써 직접적인 의미 전달을 가능하게 합니다. 학습 가능한 게이팅 메커니즘은 캐시 소통으로 이익을 얻는 타겟 레이어를 선택합니다. 텍스트 소통과 비교했을 때, C2C는 두 모델의 깊고 전문화된 의미를 활용하면서 명시적인 중간 텍스트 생성을 피합니다. 실험 결과, C2C는 개별 모델보다 평균 8.5-10.5% 더 높은 정확도를 달성했습니다. 또한 텍스트 소통 패러다임보다 약 3.0-5.0% 더 우수한 성능을 보였으며, 평균 2.0배의 지연 시간 단축을 이루었습니다. 우리의 코드는 https://github.com/thu-nics/C2C에서 확인할 수 있습니다.
English
Multi-LLM systems harness the complementary strengths of diverse Large
Language Models, achieving performance and efficiency gains unattainable by a
single model. In existing designs, LLMs communicate through text, forcing
internal representations to be transformed into output token sequences. This
process both loses rich semantic information and incurs token-by-token
generation latency. Motivated by these limitations, we ask: Can LLMs
communicate beyond text? Oracle experiments show that enriching the KV-Cache
semantics can improve response quality without increasing cache size,
supporting KV-Cache as an effective medium for inter-model communication. Thus,
we propose Cache-to-Cache (C2C), a new paradigm for direct semantic
communication between LLMs. C2C uses a neural network to project and fuse the
source model's KV-cache with that of the target model to enable direct semantic
transfer. A learnable gating mechanism selects the target layers that benefit
from cache communication. Compared with text communication, C2C utilizes the
deep, specialized semantics from both models, while avoiding explicit
intermediate text generation. Experiments show that C2C achieves 8.5-10.5%
higher average accuracy than individual models. It further outperforms the text
communication paradigm by approximately 3.0-5.0%, while delivering an average
2.0x speedup in latency. Our code is available at
https://github.com/thu-nics/C2C.