ViT-AdaLA: Adaptación de Transformers de Visión con Atención Lineal

Resumen

Los modelos de visión base (VFMs) basados en Transformers para Visión (ViTs) han logrado un rendimiento notable en diversas tareas de visión, pero sufren de una complejidad cuadrática que limita su escalabilidad a secuencias largas. Los enfoques de atención lineal existentes para ViTs normalmente se entrenan desde cero, requiriendo recursos computacionales sustanciales, mientras que los métodos basados en linealización desarrollados para decodificadores de modelos de lenguaje grande no se transfieren bien a los ViTs. Para abordar estos desafíos, proponemos ViT-AdaLA, un marco novedoso para adaptar y transferir efectivamente el conocimiento previo de los VFMs a ViTs de atención lineal. ViT-AdaLA consta de tres etapas: alineación de atención, alineación de características y ajuste fino supervisado. En la etapa de alineación de atención, alineamos la atención lineal básica con la atención original basada en softmax en cada bloque para aproximar el comportamiento de la atención softmax. Sin embargo, los errores residuales de aproximación se acumulan inevitablemente a través de las capas. Mitigamos esto ajustando finamente el ViT linealizado para alinear sus características de la capa final con las de un profesor VFM con softmax congelado. Finalmente, el conocimiento previo adaptado se transfiere a tareas posteriores mediante ajuste fino supervisado. Experimentos exhaustivos en tareas de clasificación y segmentación demuestran la efectividad y generalidad de ViT-AdaLA sobre varias contrapartes de atención lineal state-of-the-art.

English

Vision Transformers (ViTs) based vision foundation models (VFMs) have achieved remarkable performance across diverse vision tasks, but suffer from quadratic complexity that limits scalability to long sequences. Existing linear attention approaches for ViTs are typically trained from scratch, requiring substantial computational resources, while linearization-based methods developed for large language model decoders do not transfer well to ViTs. To address these challenges, we propose ViT-AdaLA, a novel framework for effectively adapting and transferring prior knowledge from VFMs to linear attention ViTs. ViT-AdaLA consists of three stages: attention alignment, feature alignment, and supervised fine-tuning. In the attention alignment stage, we align vanilla linear attention with the original softmax-based attention in each block to approximate the behavior of softmax attention. However, residual approximation errors inevitably accumulate across layers. We mitigate this by fine-tuning the linearized ViT to align its final-layer features with a frozen softmax VFM teacher. Finally, the adapted prior knowledge is transferred to downstream tasks through supervised fine-tuning. Extensive experiments on classification and segmentation tasks demonstrate the effectiveness and generality of ViT-AdaLA over various state-of-the-art linear attention counterpart.

ViT-AdaLA: Adaptación de Transformers de Visión con Atención Lineal

ViT-AdaLA: Adapting Vision Transformers with Linear Attention

Resumen

Support