Eine Silberkugel oder ein Kompromiss für volle Aufmerksamkeit? Eine umfassende Studie zur Kontextkompression basierend auf Gist-Token.
A Silver Bullet or a Compromise for Full Attention? A Comprehensive Study of Gist Token-based Context Compression
December 23, 2024
Autoren: Chenlong Deng, Zhisong Zhang, Kelong Mao, Shuaiyi Li, Xinting Huang, Dong Yu, Zhicheng Dou
cs.AI
Zusammenfassung
In dieser Arbeit bieten wir eine gründliche Untersuchung von gisträger Kontextkompressionsmethoden zur Verbesserung der Verarbeitung von langem Kontext in großen Sprachmodellen. Wir konzentrieren uns auf zwei zentrale Fragen: (1) Wie gut können diese Methoden vollständige Aufmerksamkeitsmodelle ersetzen? und (2) Welche potenziellen Fehlermuster entstehen durch die Kompression? Durch umfangreiche Experimente zeigen wir, dass gisträger Kompression nahezu verlustfreie Leistungen bei Aufgaben wie generierungsgesteigerter Rückgewinnung und Langdokument-F&A erzielen kann, jedoch Herausforderungen bei Aufgaben wie synthetischer Rückruf gegenübersteht. Darüber hinaus identifizieren wir drei zentrale Fehlermuster: verloren durch die Grenze, verloren bei Überraschung und verloren auf dem Weg. Um diese Probleme zu mildern, schlagen wir zwei effektive Strategien vor: feinkörniges Autoencoding, das die Rekonstruktion von ursprünglichen Token-Informationen verbessert, und segmentweise Token-Wichtigkeitsschätzung, die die Optimierung basierend auf Token-Abhängigkeiten anpasst. Unsere Arbeit liefert wertvolle Einblicke in das Verständnis von gisträger Token-basierter Kontextkompression und bietet praktische Strategien zur Verbesserung der Kompressionsfähigkeiten.
English
In this work, we provide a thorough investigation of gist-based context
compression methods to improve long-context processing in large language
models. We focus on two key questions: (1) How well can these methods replace
full attention models? and (2) What potential failure patterns arise due to
compression? Through extensive experiments, we show that while gist-based
compression can achieve near-lossless performance on tasks like
retrieval-augmented generation and long-document QA, it faces challenges in
tasks like synthetic recall. Furthermore, we identify three key failure
patterns: lost by the boundary, lost if surprise, and lost along the way. To
mitigate these issues, we propose two effective strategies: fine-grained
autoencoding, which enhances the reconstruction of original token information,
and segment-wise token importance estimation, which adjusts optimization based
on token dependencies. Our work provides valuable insights into the
understanding of gist token-based context compression and offers practical
strategies for improving compression capabilities.Summary
AI-Generated Summary