ViT-AdaLA: Anpassung von Vision Transformern mit linearer Aufmerksamkeit

Zusammenfassung

Vision Transformer (ViT) basierte visuelle Fundamentalmodelle (VFMs) haben bemerkenswerte Leistungen in verschiedenen visuellen Aufgaben erzielt, leiden jedoch unter quadratischer Komplexität, die die Skalierbarkeit auf lange Sequenzen begrenzt. Bestehende Linear-Attention-Ansätze für ViTs werden typischerweise von Grund auf neu trainiert, was erhebliche Rechenressourcen erfordert, während Linearisierungsmethoden, die für Decoder großer Sprachmodelle entwickelt wurden, sich nicht gut auf ViTs übertragen lassen. Um diese Herausforderungen zu adressieren, schlagen wir ViT-AdaLA vor, einen neuartigen Rahmen zur effektiven Anpassung und Übertragung von Vorwissen von VFMs auf Linear-Attention-ViTs. ViT-AdaLA besteht aus drei Stufen: Attention-Alignment, Feature-Alignment und überwachtes Feinabstimmen. In der Attention-Alignment-Stufe gleichen wir die standardmäßige Linear-Attention mit der ursprünglichen Softmax-basierten Attention in jedem Block ab, um das Verhalten der Softmax-Attention anzunähern. Restliche Approximationsfehler häufen sich jedoch unweigerlich über die Schichten hinweg an. Wir mildern dies, indem wir den linearisierten ViT feinabstimmen, um seine Final-Layer-Features an einen eingefrorenen Softmax-VFM-Lehrer anzugleichen. Schließlich wird das angepasste Vorwissen durch überwachtes Feinabstimmen auf Downstream-Aufgaben übertragen. Umfangreiche Experimente zu Klassifikations- und Segmentierungsaufgaben demonstrieren die Wirksamkeit und Allgemeingültigkeit von ViT-AdaLA gegenüber verschiedenen state-of-the-art Linear-Attention-Gegenstücken.

English

Vision Transformers (ViTs) based vision foundation models (VFMs) have achieved remarkable performance across diverse vision tasks, but suffer from quadratic complexity that limits scalability to long sequences. Existing linear attention approaches for ViTs are typically trained from scratch, requiring substantial computational resources, while linearization-based methods developed for large language model decoders do not transfer well to ViTs. To address these challenges, we propose ViT-AdaLA, a novel framework for effectively adapting and transferring prior knowledge from VFMs to linear attention ViTs. ViT-AdaLA consists of three stages: attention alignment, feature alignment, and supervised fine-tuning. In the attention alignment stage, we align vanilla linear attention with the original softmax-based attention in each block to approximate the behavior of softmax attention. However, residual approximation errors inevitably accumulate across layers. We mitigate this by fine-tuning the linearized ViT to align its final-layer features with a frozen softmax VFM teacher. Finally, the adapted prior knowledge is transferred to downstream tasks through supervised fine-tuning. Extensive experiments on classification and segmentation tasks demonstrate the effectiveness and generality of ViT-AdaLA over various state-of-the-art linear attention counterpart.

ViT-AdaLA: Anpassung von Vision Transformern mit linearer Aufmerksamkeit

ViT-AdaLA: Adapting Vision Transformers with Linear Attention

Zusammenfassung

Support