I Transformer Vision traggono vantaggio da componenti non lisci durante il fine-tuning

Abstract

La levigatezza dell'architettura transformer è stata ampiamente studiata nel contesto della generalizzazione, della stabilità dell'addestramento e della robustezza adversarial. Tuttavia, il suo ruolo nel transfer learning rimane poco compreso. In questo articolo, analizziamo la capacità dei componenti del vision transformer di adattare i propri output ai cambiamenti negli input, o, in altre parole, la loro plasticità. Definita come un tasso medio di cambiamento, essa cattura la sensibilità alle perturbazioni degli input; in particolare, un'alta plasticità implica una bassa levigatezza. Dimostriamo attraverso l'analisi teorica e esperimenti completi che questa prospettiva fornisce una guida principiata nella scelta dei componenti da privilegiare durante l'adattamento. Un punto chiave per i praticanti è che l'alta plasticità dei moduli di attenzione e degli strati feedforward porta costantemente a migliori prestazioni di fine-tuning. I nostri risultati si discostano dall'assunzione prevalente che la levigatezza sia desiderabile, offrendo una prospettiva innovativa sulle proprietà funzionali dei transformer. Il codice è disponibile all'indirizzo https://github.com/ambroiseodt/vit-plasticity.

English

The smoothness of the transformer architecture has been extensively studied in the context of generalization, training stability, and adversarial robustness. However, its role in transfer learning remains poorly understood. In this paper, we analyze the ability of vision transformer components to adapt their outputs to changes in inputs, or, in other words, their plasticity. Defined as an average rate of change, it captures the sensitivity to input perturbation; in particular, a high plasticity implies low smoothness. We demonstrate through theoretical analysis and comprehensive experiments that this perspective provides principled guidance in choosing the components to prioritize during adaptation. A key takeaway for practitioners is that the high plasticity of the attention modules and feedforward layers consistently leads to better finetuning performance. Our findings depart from the prevailing assumption that smoothness is desirable, offering a novel perspective on the functional properties of transformers. The code is available at https://github.com/ambroiseodt/vit-plasticity.

I Transformer Vision traggono vantaggio da componenti non lisci durante il fine-tuning

Vision Transformer Finetuning Benefits from Non-Smooth Components

Abstract

Support