Repräsentationsverschiebung: Vereinheitlichung der Token-Kompression mit FlashAttention
Representation Shift: Unifying Token Compression with FlashAttention
August 1, 2025
papers.authors: Joonmyung Choi, Sanghyeok Lee, Byungoh Ko, Eunseo Kim, Jihyung Kil, Hyunwoo J. Kim
cs.AI
papers.abstract
Transformer haben bemerkenswerte Erfolge in den Bereichen Vision, Sprache und Video gezeigt. Doch die zunehmende Aufgabenkomplexität hat zu größeren Modellen und mehr Tokens geführt, was die quadratischen Kosten der Selbstaufmerksamkeit und den Overhead des GPU-Speicherzugriffs erhöht. Um die Rechenkosten der Selbstaufmerksamkeit zu reduzieren, haben frühere Arbeiten Token-Komprimierungstechniken vorgeschlagen, die redundante oder weniger informative Tokens entfernen. Gleichzeitig wurden fusionierte Aufmerksamkeitskerne wie FlashAttention entwickelt, um den Speicher-Overhead zu verringern, indem die Konstruktion von Aufmerksamkeitskarten und der damit verbundene I/O-Zugriff auf den HBM vermieden werden. Dies macht sie jedoch mit den meisten trainingsfreien Token-Komprimierungsmethoden inkompatibel, die auf Aufmerksamkeitskarten angewiesen sind, um die Token-Bedeutung zu bestimmen. Hier schlagen wir Representation Shift vor, ein trainingsfreies, modellunabhängiges Maß, das den Grad der Veränderung in der Repräsentation jedes Tokens misst. Dies ermöglicht eine nahtlose Integration der Token-Komprimierung mit FlashAttention, ohne Aufmerksamkeitskarten oder erneutes Training. Unsere Methode verallgemeinert sich über Transformer hinaus auf CNNs und State-Space-Modelle. Umfangreiche Experimente zeigen, dass Representation Shift eine effektive Token-Komprimierung ermöglicht, die mit FlashAttention kompatibel ist, und signifikante Beschleunigungen von bis zu 5,5 % und 4,4 % bei der Video-Text-Retrieval und Video-QA erzielt. Der Code ist verfügbar unter https://github.com/mlvlab/Representation-Shift.
English
Transformers have demonstrated remarkable success across vision, language,
and video. Yet, increasing task complexity has led to larger models and more
tokens, raising the quadratic cost of self-attention and the overhead of GPU
memory access. To reduce the computation cost of self-attention, prior work has
proposed token compression techniques that drop redundant or less informative
tokens. Meanwhile, fused attention kernels such as FlashAttention have been
developed to alleviate memory overhead by avoiding attention map construction
and its associated I/O to HBM. This, however, makes it incompatible with most
training-free token compression methods, which rely on attention maps to
determine token importance. Here, we propose Representation Shift, a
training-free, model-agnostic metric that measures the degree of change in each
token's representation. This seamlessly integrates token compression with
FlashAttention, without attention maps or retraining. Our method further
generalizes beyond Transformers to CNNs and state space models. Extensive
experiments show that Representation Shift enables effective token compression
compatible with FlashAttention, yielding significant speedups of up to 5.5% and
4.4% in video-text retrieval and video QA, respectively. Code is available at
https://github.com/mlvlab/Representation-Shift.