Feinabstimmung von Vision Transformern profitiert von nicht-glatten Komponenten

Zusammenfassung

Die Glattheit der Transformer-Architektur wurde im Zusammenhang mit Generalisierung, Trainingsstabilität und adversarieller Robustheit intensiv untersucht. Ihre Rolle beim Transferlernen bleibt jedoch weitgehend unverstanden. In dieser Arbeit analysieren wir die Fähigkeit von Vision-Transformer-Komponenten, ihre Ausgaben an Änderungen der Eingaben anzupassen, oder anders ausgedrückt, ihre Plastizität. Diese wird als durchschnittliche Änderungsrate definiert und erfasst die Empfindlichkeit gegenüber Eingabestörungen; insbesondere impliziert eine hohe Plastizität eine geringe Glattheit. Wir zeigen durch theoretische Analysen und umfangreiche Experimente, dass diese Perspektive eine prinzipielle Leitlinie für die Auswahl der Komponenten bietet, die während der Anpassung priorisiert werden sollten. Eine zentrale Erkenntnis für Praktiker ist, dass die hohe Plastizität der Aufmerksamkeitsmodule und Feedforward-Schichten konsistent zu besserer Fine-Tuning-Leistung führt. Unsere Ergebnisse weichen von der vorherrschenden Annahme ab, dass Glattheit wünschenswert ist, und bieten eine neue Perspektive auf die funktionalen Eigenschaften von Transformatoren. Der Code ist verfügbar unter https://github.com/ambroiseodt/vit-plasticity.

English

The smoothness of the transformer architecture has been extensively studied in the context of generalization, training stability, and adversarial robustness. However, its role in transfer learning remains poorly understood. In this paper, we analyze the ability of vision transformer components to adapt their outputs to changes in inputs, or, in other words, their plasticity. Defined as an average rate of change, it captures the sensitivity to input perturbation; in particular, a high plasticity implies low smoothness. We demonstrate through theoretical analysis and comprehensive experiments that this perspective provides principled guidance in choosing the components to prioritize during adaptation. A key takeaway for practitioners is that the high plasticity of the attention modules and feedforward layers consistently leads to better finetuning performance. Our findings depart from the prevailing assumption that smoothness is desirable, offering a novel perspective on the functional properties of transformers. The code is available at https://github.com/ambroiseodt/vit-plasticity.

Feinabstimmung von Vision Transformern profitiert von nicht-glatten Komponenten

Vision Transformer Finetuning Benefits from Non-Smooth Components

Zusammenfassung

Support