Le réglage fin de Vision Transformer bénéficie de composantes non lisses

Résumé

La régularité de l'architecture transformer a été largement étudiée dans le contexte de la généralisation, de la stabilité de l'apprentissage et de la robustesse adversarial. Cependant, son rôle dans l'apprentissage par transfert reste mal compris. Dans cet article, nous analysons la capacité des composants du vision transformer à adapter leurs sorties aux changements des entrées, ou en d'autres termes, leur plasticité. Définie comme un taux de changement moyen, elle capture la sensibilité aux perturbations des entrées ; en particulier, une plasticité élevée implique une faible régularité. Nous démontrons par une analyse théorique et des expériences approfondies que cette perspective fournit des orientations fondées pour choisir les composants à privilégier lors de l'adaptation. Un enseignement clé pour les praticiens est que la plasticité élevée des modules d'attention et des couches feedforward conduit systématiquement à de meilleures performances de fine-tuning. Nos résultats s'écartent de l'hypothèse dominante selon laquelle la régularité est souhaitable, offrant une perspective novatrice sur les propriétés fonctionnelles des transformers. Le code est disponible à l'adresse https://github.com/ambroiseodt/vit-plasticity.

English

The smoothness of the transformer architecture has been extensively studied in the context of generalization, training stability, and adversarial robustness. However, its role in transfer learning remains poorly understood. In this paper, we analyze the ability of vision transformer components to adapt their outputs to changes in inputs, or, in other words, their plasticity. Defined as an average rate of change, it captures the sensitivity to input perturbation; in particular, a high plasticity implies low smoothness. We demonstrate through theoretical analysis and comprehensive experiments that this perspective provides principled guidance in choosing the components to prioritize during adaptation. A key takeaway for practitioners is that the high plasticity of the attention modules and feedforward layers consistently leads to better finetuning performance. Our findings depart from the prevailing assumption that smoothness is desirable, offering a novel perspective on the functional properties of transformers. The code is available at https://github.com/ambroiseodt/vit-plasticity.

Le réglage fin de Vision Transformer bénéficie de composantes non lisses

Vision Transformer Finetuning Benefits from Non-Smooth Components

Résumé

Support