Het Finetunen van Vision Transformers Profiteert van Niet-gladde Componenten

Samenvatting

De gladheid van de transformer-architectuur is uitgebreid bestudeerd in de context van generalisatie, trainstabiliteit en robuustheid tegen adversarial attacks. De rol ervan bij transfer learning blijft echter slecht begrepen. In dit artikel analyseren we het vermogen van vision transformer-componenten om hun uitvoer aan te passen aan veranderingen in de invoer, of met andere woorden, hun plasticiteit. Gedefinieerd als een gemiddelde veranderingssnelheid, vangt deze de gevoeligheid voor inputverstoringen; in het bijzonder impliceert een hoge plasticiteit een lage gladheid. Wij tonen door middel van theoretische analyse en uitgebreide experimenten aan dat dit perspectief een principeakgeleiding biedt bij het kiezen van de componenten die prioriteit moeten krijgen tijdens adaptatie. Een belangrijke les voor praktijkmensen is dat de hoge plasticiteit van de aandachtmodules en de feedforward-lagen consistent leidt tot betere finetuningprestaties. Onze bevindingen wijken af van de heersende aanname dat gladheid wenselijk is, en bieden een nieuw perspectief op de functionele eigenschappen van transformers. De code is beschikbaar op https://github.com/ambroiseodt/vit-plasticity.

English

The smoothness of the transformer architecture has been extensively studied in the context of generalization, training stability, and adversarial robustness. However, its role in transfer learning remains poorly understood. In this paper, we analyze the ability of vision transformer components to adapt their outputs to changes in inputs, or, in other words, their plasticity. Defined as an average rate of change, it captures the sensitivity to input perturbation; in particular, a high plasticity implies low smoothness. We demonstrate through theoretical analysis and comprehensive experiments that this perspective provides principled guidance in choosing the components to prioritize during adaptation. A key takeaway for practitioners is that the high plasticity of the attention modules and feedforward layers consistently leads to better finetuning performance. Our findings depart from the prevailing assumption that smoothness is desirable, offering a novel perspective on the functional properties of transformers. The code is available at https://github.com/ambroiseodt/vit-plasticity.

Het Finetunen van Vision Transformers Profiteert van Niet-gladde Componenten

Vision Transformer Finetuning Benefits from Non-Smooth Components

Samenvatting

Support