Тонкая настройка Vision Transformer выигрывает от негладких компонентов

Аннотация

Гладкость архитектуры транссформеров широко изучалась в контексте обобщающей способности, устойчивости обучения и устойчивости к adversarial-атакам. Однако её роль в transfer learning остаётся слабо изученной. В данной работе мы анализируем способность компонентов vision transformer адаптировать свои выходные данные к изменениям входных данных, или, иными словами, их пластичность. Определяемая как средняя скорость изменения, пластичность отражает чувствительность к возмущениям входного сигнала; в частности, высокая пластичность подразумевает низкую гладкость. Мы демонстрируем с помощью теоретического анализа и всесторонних экспериментов, что данный подход обеспечивает принципиальные рекомендации по выбору компонентов для приоритизации в процессе адаптации. Ключевой вывод для практиков заключается в том, что высокая пластичность модулей внимания и feedforward-слоев последовательно приводит к лучшим результатам дообучения. Наши результаты расходятся с преобладающим предположением о желательности гладкости, предлагая новый взгляд на функциональные свойства трансформеров. Код доступен по адресу https://github.com/ambroiseodt/vit-plasticity.

English

The smoothness of the transformer architecture has been extensively studied in the context of generalization, training stability, and adversarial robustness. However, its role in transfer learning remains poorly understood. In this paper, we analyze the ability of vision transformer components to adapt their outputs to changes in inputs, or, in other words, their plasticity. Defined as an average rate of change, it captures the sensitivity to input perturbation; in particular, a high plasticity implies low smoothness. We demonstrate through theoretical analysis and comprehensive experiments that this perspective provides principled guidance in choosing the components to prioritize during adaptation. A key takeaway for practitioners is that the high plasticity of the attention modules and feedforward layers consistently leads to better finetuning performance. Our findings depart from the prevailing assumption that smoothness is desirable, offering a novel perspective on the functional properties of transformers. The code is available at https://github.com/ambroiseodt/vit-plasticity.

Тонкая настройка Vision Transformer выигрывает от негладких компонентов

Vision Transformer Finetuning Benefits from Non-Smooth Components

Аннотация

Support