ViT-AdaLA : Adaptation des Vision Transformers par Attention Linéaire

Résumé

Les modèles de fondation visuelle (VFMs) basés sur les Vision Transformers (ViTs) ont obtenu des performances remarquables sur diverses tâches de vision, mais souffrent d'une complexité quadratique qui limite leur extensibilité aux longues séquences. Les approches d'attention linéaire existantes pour les ViTs sont généralement entraînées à partir de zéro, nécessitant d'importantes ressources computationnelles, tandis que les méthodes de linéarisation développées pour les décodeurs de grands modèles linguistiques ne se transfèrent pas efficacement aux ViTs. Pour relever ces défis, nous proposons ViT-AdaLA, un cadre novateur pour adapter et transférer efficacement les connaissances antérieures des VFMs vers des ViTs à attention linéaire. ViT-AdaLA se compose de trois étapes : alignement de l'attention, alignement des caractéristiques et réglage fin supervisé. Lors de l'étape d'alignement de l'attention, nous alignons l'attention linéaire standard avec l'attention originale basée sur softmax dans chaque bloc pour approximer le comportement de l'attention softmax. Cependant, des erreurs d'approximation résiduelles s'accumulent inévitablement à travers les couches. Nous atténuons ce problème en affinant le ViT linéarisé pour aligner ses caractéristiques de dernière couche avec celles d'un enseignant VFM à softmax gelé. Enfin, les connaissances antérieures adaptées sont transférées vers des tâches en aval via un réglage fin supervisé. Des expériences approfondies sur des tâches de classification et de segmentation démontrent l'efficacité et la généralité de ViT-AdaLA par rapport à diverses contreparties à attention linéaire de pointe.

English

Vision Transformers (ViTs) based vision foundation models (VFMs) have achieved remarkable performance across diverse vision tasks, but suffer from quadratic complexity that limits scalability to long sequences. Existing linear attention approaches for ViTs are typically trained from scratch, requiring substantial computational resources, while linearization-based methods developed for large language model decoders do not transfer well to ViTs. To address these challenges, we propose ViT-AdaLA, a novel framework for effectively adapting and transferring prior knowledge from VFMs to linear attention ViTs. ViT-AdaLA consists of three stages: attention alignment, feature alignment, and supervised fine-tuning. In the attention alignment stage, we align vanilla linear attention with the original softmax-based attention in each block to approximate the behavior of softmax attention. However, residual approximation errors inevitably accumulate across layers. We mitigate this by fine-tuning the linearized ViT to align its final-layer features with a frozen softmax VFM teacher. Finally, the adapted prior knowledge is transferred to downstream tasks through supervised fine-tuning. Extensive experiments on classification and segmentation tasks demonstrate the effectiveness and generality of ViT-AdaLA over various state-of-the-art linear attention counterpart.

ViT-AdaLA : Adaptation des Vision Transformers par Attention Linéaire

ViT-AdaLA: Adapting Vision Transformers with Linear Attention

Résumé

Support