ChatPaper.aiChatPaper

Серебряная пуля или компромисс для полного внимания? Комплексное исследование сжатия контекста на основе токенов Gist.

A Silver Bullet or a Compromise for Full Attention? A Comprehensive Study of Gist Token-based Context Compression

December 23, 2024
Авторы: Chenlong Deng, Zhisong Zhang, Kelong Mao, Shuaiyi Li, Xinting Huang, Dong Yu, Zhicheng Dou
cs.AI

Аннотация

В данной работе мы проводим тщательное исследование методов сжатия контекста на основе сути для улучшения обработки длинного контекста в больших языковых моделях. Мы сосредотачиваемся на двух ключевых вопросах: (1) Насколько хорошо эти методы могут заменить модели полного внимания? и (2) Какие потенциальные шаблоны отказа возникают из-за сжатия? Через обширные эксперименты мы показываем, что хотя сжатие на основе сути может достичь почти потерь производительности на задачах, таких как генерация с увеличением извлечения и вопросно-ответная система для длинных документов, оно сталкивается с вызовами на задачах, таких как синтетическое воспоминание. Более того, мы выявляем три ключевых шаблона отказа: потерянный у границы, потерянный при сюрпризе и потерянный по пути. Для смягчения этих проблем мы предлагаем две эффективные стратегии: детализированное авокодирование, которое улучшает восстановление информации об исходном токене, и оценку важности токена по сегментам, которая корректирует оптимизацию на основе зависимостей токенов. Наша работа предоставляет ценные идеи для понимания сжатия контекста на основе токенов сути и предлагает практические стратегии для улучшения возможностей сжатия.
English
In this work, we provide a thorough investigation of gist-based context compression methods to improve long-context processing in large language models. We focus on two key questions: (1) How well can these methods replace full attention models? and (2) What potential failure patterns arise due to compression? Through extensive experiments, we show that while gist-based compression can achieve near-lossless performance on tasks like retrieval-augmented generation and long-document QA, it faces challenges in tasks like synthetic recall. Furthermore, we identify three key failure patterns: lost by the boundary, lost if surprise, and lost along the way. To mitigate these issues, we propose two effective strategies: fine-grained autoencoding, which enhances the reconstruction of original token information, and segment-wise token importance estimation, which adjusts optimization based on token dependencies. Our work provides valuable insights into the understanding of gist token-based context compression and offers practical strategies for improving compression capabilities.

Summary

AI-Generated Summary

PDF343December 27, 2024