O Ajuste Fino de Vision Transformer Beneficia-se de Componentes Não Suaves

Resumo

A suavidade da arquitetura transformer tem sido amplamente estudada no contexto de generalização, estabilidade do treinamento e robustez adversarial. No entanto, o seu papel na aprendizagem por transferência permanece pouco compreendido. Neste artigo, analisamos a capacidade dos componentes da vision transformer de adaptarem as suas saídas a mudanças nas entradas ou, por outras palavras, a sua plasticidade. Definida como uma taxa média de mudança, esta capta a sensibilidade a perturbações na entrada; em particular, uma alta plasticidade implica baixa suavidade. Demonstramos através de análise teórica e experiências abrangentes que esta perspetiva fornece orientação fundamentada na escolha dos componentes a priorizar durante a adaptação. Uma conclusão chave para os profissionais é que a alta plasticidade dos módulos de atenção e das camadas *feedforward* conduz consistentemente a um melhor desempenho no ajuste fino (*finetuning*). As nossas descobertas afastam-se da pressuposição predominante de que a suavidade é desejável, oferecendo uma nova perspetiva sobre as propriedades funcionais dos *transformers*. O código está disponível em https://github.com/ambroiseodt/vit-plasticity.

English

The smoothness of the transformer architecture has been extensively studied in the context of generalization, training stability, and adversarial robustness. However, its role in transfer learning remains poorly understood. In this paper, we analyze the ability of vision transformer components to adapt their outputs to changes in inputs, or, in other words, their plasticity. Defined as an average rate of change, it captures the sensitivity to input perturbation; in particular, a high plasticity implies low smoothness. We demonstrate through theoretical analysis and comprehensive experiments that this perspective provides principled guidance in choosing the components to prioritize during adaptation. A key takeaway for practitioners is that the high plasticity of the attention modules and feedforward layers consistently leads to better finetuning performance. Our findings depart from the prevailing assumption that smoothness is desirable, offering a novel perspective on the functional properties of transformers. The code is available at https://github.com/ambroiseodt/vit-plasticity.

O Ajuste Fino de Vision Transformer Beneficia-se de Componentes Não Suaves

Vision Transformer Finetuning Benefits from Non-Smooth Components

Resumo

Support