ChatPaper.aiChatPaper

¿Una bala de plata o un compromiso para la atención total? Un estudio exhaustivo de la compresión de contexto basada en tokens de esencia.

A Silver Bullet or a Compromise for Full Attention? A Comprehensive Study of Gist Token-based Context Compression

December 23, 2024
Autores: Chenlong Deng, Zhisong Zhang, Kelong Mao, Shuaiyi Li, Xinting Huang, Dong Yu, Zhicheng Dou
cs.AI

Resumen

En este trabajo, realizamos una investigación exhaustiva de los métodos de compresión de contexto basados en la esencia para mejorar el procesamiento de contextos largos en modelos de lenguaje grandes. Nos centramos en dos preguntas clave: (1) ¿Hasta qué punto pueden estos métodos reemplazar a los modelos de atención completos? y (2) ¿Qué patrones de falla potenciales surgen debido a la compresión? A través de experimentos extensos, demostramos que si bien la compresión basada en la esencia puede lograr un rendimiento casi sin pérdidas en tareas como la generación aumentada por recuperación y la pregunta y respuesta en documentos largos, enfrenta desafíos en tareas como la recuperación sintética. Además, identificamos tres patrones clave de falla: perdido por el límite, perdido si sorpresa y perdido en el camino. Para mitigar estos problemas, proponemos dos estrategias efectivas: autoencodificación detallada, que mejora la reconstrucción de la información original de los tokens, y estimación de importancia de tokens por segmentos, que ajusta la optimización basada en las dependencias de los tokens. Nuestro trabajo proporciona ideas valiosas para comprender la compresión de contexto basada en tokens de esencia y ofrece estrategias prácticas para mejorar las capacidades de compresión.
English
In this work, we provide a thorough investigation of gist-based context compression methods to improve long-context processing in large language models. We focus on two key questions: (1) How well can these methods replace full attention models? and (2) What potential failure patterns arise due to compression? Through extensive experiments, we show that while gist-based compression can achieve near-lossless performance on tasks like retrieval-augmented generation and long-document QA, it faces challenges in tasks like synthetic recall. Furthermore, we identify three key failure patterns: lost by the boundary, lost if surprise, and lost along the way. To mitigate these issues, we propose two effective strategies: fine-grained autoencoding, which enhances the reconstruction of original token information, and segment-wise token importance estimation, which adjusts optimization based on token dependencies. Our work provides valuable insights into the understanding of gist token-based context compression and offers practical strategies for improving compression capabilities.

Summary

AI-Generated Summary

PDF343December 27, 2024