ChatPaper.aiChatPaper

Сжатие контекста посредством явной передачи информации

Context Compression via Explicit Information Transmission

February 3, 2026
Авторы: Jiangnan Ye, Hanqi Yan, Zhenyi Shen, Heng Chang, Ye Mao, Yulan He
cs.AI

Аннотация

Вывод длинных контекстов с помощью больших языковых моделей (LLM) требует значительных затрат из-за квадратичной сложности механизма внимания и растущих кэшей ключ-значение, что стимулирует разработку методов сжатия контекста. В данной работе мы исследуем мягкое сжатие контекста, при котором длинный контекст конденсируется в небольшой набор непрерывных представлений. Существующие методы обычно перепрофилируют саму LLM в обучаемый компрессор, полагаясь на послойный механизм самовнимания для итеративной агрегации информации. Мы утверждаем, что эта парадигма страдает от двух структурных ограничений: (i) прогрессирующего перезаписывания представлений между слоями и (ii) несогласованного распределения ресурсов сжатия между токенами. Мы предлагаем ComprExIT (Сжатие Контекста через Явную Передачу Информации) — облегченную архитектуру, которая формулирует мягкое сжатие в новой парадигме: явная передача информации по замороженным скрытым состояниям LLM. Это отделяет сжатие от внутренней динамики самовнимания модели. ComprExIT выполняет (i) передачу по глубине для избирательной передачи многоуровневой информации в якорные токены, смягчая проблему прогрессирующего перезаписывания, и (ii) передачу по ширине для агрегации якорных токенов в небольшое число слотов через глобально оптимизированный план передачи, обеспечивая согласованное распределение информации. На шести тестовых наборах для вопросно-ответных задач ComprExIT стабильно превосходит современные методы сжатия контекста, вводя лишь ~1% дополнительных параметров, что демонстрирует, что явная и скоординированная передача информации позволяет осуществлять более эффективное и надежное сжатие длинных контекстов.
English
Long-context inference with Large Language Models (LLMs) is costly due to quadratic attention and growing key-value caches, motivating context compression. In this work, we study soft context compression, where a long context is condensed into a small set of continuous representations. Existing methods typically re-purpose the LLM itself as a trainable compressor, relying on layer-by-layer self-attention to iteratively aggregate information. We argue that this paradigm suffers from two structural limitations: (i) progressive representation overwriting across layers (ii) uncoordinated allocation of compression capacity across tokens. We propose ComprExIT (Context Compression via Explicit Information Transmission), a lightweight framework that formulates soft compression into a new paradigm: explicit information transmission over frozen LLM hidden states. This decouples compression from the model's internal self-attention dynamics. ComprExIT performs (i) depth-wise transmission to selectively transmit multi-layer information into token anchors, mitigating progressive overwriting, and (ii) width-wise transmission to aggregate anchors into a small number of slots via a globally optimized transmission plan, ensuring coordinated allocation of information. Across six question-answering benchmarks, ComprExIT consistently outperforms state-of-the-art context compression methods while introducing only ~1% additional parameters, demonstrating that explicit and coordinated information transmission enables more effective and robust long-context compression.
PDF142February 11, 2026