Видеть то, что вижу я, знать то, что я думаю: плотная латентная коммуникация между гетерогенными агентами

Аннотация

Мультиагентные системы в основном общаются через текст, что сопряжено с потерями и дорогостоящими затратами на декодирование и повторное кодирование. Коммуникация через KV-кэш является перспективной альтернативой, однако большинство предыдущих работ являются гомогенными, используя дублирующиеся копии одной и той же модели, и обходят центральную проблему кросс-модельного латентного выравнивания; существующие гетерогенные методы также ограничены, обычно предполагая общий входной сигнал и используя передаваемые кэши в основном для управления. Мы изучаем более фундаментальный вопрос: могут ли гетерогенные агенты быть выровнены достаточно хорошо для выполнения настоящего «чтения мыслей» и передачи как того, что видит один агент, так и того, как он мыслит? Наш анализ информационной структуры выявляет двойственность: контекстно-зависимая передача управляется разреженными сигналами рассуждения, в то время как контекстно-независимая передача, при которой получатель не видит входных данных, требует плотного сохранения контекстных знаний. Руководствуясь этим, мы предлагаем плотное выравнивание для гетерогенной коммуникации через KV-кэш с помощью легковесного кросс-модельного преобразования кэша и двухфазного обучения: реконструкция, затем генерация. По всем шести направлениям между {Qwen3-4B, 8B, 14B} и шести внутренним и внешним бенчмаркам наш метод превосходит предыдущие гетерогенные базовые подходы, соответствует или превосходит текстовую коммуникацию в контекстно-зависимых настройках при примерно в 2–3 раза меньших вычислительных затратах и остается эффективным в контекстно-независимой передаче, где предыдущие методы терпят крах.

English

Multi-agent systems communicate mostly through text, paying a lossy and expensive decode and re-encode cost. KV-cache communication is a promising alternative, yet most prior work is homogeneous, using duplicate copies of the same model, and avoids the central challenge of cross-model latent alignment; existing heterogeneous methods are also restrictive, typically assuming shared input and using transferred caches mainly for steering. We study a more fundamental question: can heterogeneous agents be aligned well enough to perform real "mind reading" and transfer both what one agent sees and how it thinks? Our information-structure analysis reveals a duality: context-aware transfer is driven by sparse reasoning signals, while context-unaware transfer, where the receiver sees no input, requires dense contextual knowledge preservation. Motivated by this, we propose dense alignment for heterogeneous KV-cache communication via a lightweight cross-model cache transformation and two-phase training: reconstruction followed by generation. Across all six directions of {Qwen3-4B, 8B, 14B} and six in-domain and out-of-domain benchmarks, our method outperforms prior heterogeneous baselines, matches or exceeds text communication in context-aware settings at roughly 2 to 3 times lower compute, and remains effective in context-unaware transfer where prior methods collapse.