Серебряная пуля или компромисс для полного внимания? Комплексное исследование сжатия контекста на основе токенов Gist.
A Silver Bullet or a Compromise for Full Attention? A Comprehensive Study of Gist Token-based Context Compression
December 23, 2024
Авторы: Chenlong Deng, Zhisong Zhang, Kelong Mao, Shuaiyi Li, Xinting Huang, Dong Yu, Zhicheng Dou
cs.AI
Аннотация
В данной работе мы проводим тщательное исследование методов сжатия контекста на основе сути для улучшения обработки длинного контекста в больших языковых моделях. Мы сосредотачиваемся на двух ключевых вопросах: (1) Насколько хорошо эти методы могут заменить модели полного внимания? и (2) Какие потенциальные шаблоны отказа возникают из-за сжатия? Через обширные эксперименты мы показываем, что хотя сжатие на основе сути может достичь почти потерь производительности на задачах, таких как генерация с увеличением извлечения и вопросно-ответная система для длинных документов, оно сталкивается с вызовами на задачах, таких как синтетическое воспоминание. Более того, мы выявляем три ключевых шаблона отказа: потерянный у границы, потерянный при сюрпризе и потерянный по пути. Для смягчения этих проблем мы предлагаем две эффективные стратегии: детализированное авокодирование, которое улучшает восстановление информации об исходном токене, и оценку важности токена по сегментам, которая корректирует оптимизацию на основе зависимостей токенов. Наша работа предоставляет ценные идеи для понимания сжатия контекста на основе токенов сути и предлагает практические стратегии для улучшения возможностей сжатия.
English
In this work, we provide a thorough investigation of gist-based context
compression methods to improve long-context processing in large language
models. We focus on two key questions: (1) How well can these methods replace
full attention models? and (2) What potential failure patterns arise due to
compression? Through extensive experiments, we show that while gist-based
compression can achieve near-lossless performance on tasks like
retrieval-augmented generation and long-document QA, it faces challenges in
tasks like synthetic recall. Furthermore, we identify three key failure
patterns: lost by the boundary, lost if surprise, and lost along the way. To
mitigate these issues, we propose two effective strategies: fine-grained
autoencoding, which enhances the reconstruction of original token information,
and segment-wise token importance estimation, which adjusts optimization based
on token dependencies. Our work provides valuable insights into the
understanding of gist token-based context compression and offers practical
strategies for improving compression capabilities.Summary
AI-Generated Summary