Une solution miracle ou un compromis pour une attention totale ? Une étude complète de la compression contextuelle basée sur les jetons Gist.
A Silver Bullet or a Compromise for Full Attention? A Comprehensive Study of Gist Token-based Context Compression
December 23, 2024
Auteurs: Chenlong Deng, Zhisong Zhang, Kelong Mao, Shuaiyi Li, Xinting Huang, Dong Yu, Zhicheng Dou
cs.AI
Résumé
Dans ce travail, nous proposons une investigation approfondie des méthodes de compression de contexte basées sur l'essentiel pour améliorer le traitement de longs contextes dans les grands modèles de langage. Nous nous concentrons sur deux questions clés : (1) Dans quelle mesure ces méthodes peuvent-elles remplacer les modèles d'attention complets ? et (2) Quels schémas de défaillance potentiels se manifestent en raison de la compression ? À travers des expériences approfondies, nous montrons que, bien que la compression basée sur l'essentiel puisse atteindre des performances quasi sans perte sur des tâches telles que la génération augmentée par récupération et les questions-réponses sur de longs documents, elle rencontre des défis dans des tâches comme le rappel synthétique. De plus, nous identifions trois schémas de défaillance clés : perdu par la frontière, perdu en cas de surprise et perdu en cours de route. Pour atténuer ces problèmes, nous proposons deux stratégies efficaces : l'autoencodage fin, qui améliore la reconstruction des informations de jeton d'origine, et l'estimation de l'importance des jetons par segment, qui ajuste l'optimisation en fonction des dépendances des jetons. Notre travail offre des perspectives précieuses pour la compréhension de la compression de contexte basée sur les jetons d'essentiel et propose des stratégies pratiques pour améliorer les capacités de compression.
English
In this work, we provide a thorough investigation of gist-based context
compression methods to improve long-context processing in large language
models. We focus on two key questions: (1) How well can these methods replace
full attention models? and (2) What potential failure patterns arise due to
compression? Through extensive experiments, we show that while gist-based
compression can achieve near-lossless performance on tasks like
retrieval-augmented generation and long-document QA, it faces challenges in
tasks like synthetic recall. Furthermore, we identify three key failure
patterns: lost by the boundary, lost if surprise, and lost along the way. To
mitigate these issues, we propose two effective strategies: fine-grained
autoencoding, which enhances the reconstruction of original token information,
and segment-wise token importance estimation, which adjusts optimization based
on token dependencies. Our work provides valuable insights into the
understanding of gist token-based context compression and offers practical
strategies for improving compression capabilities.Summary
AI-Generated Summary