Los Beneficios de la Componente No Suave en el Ajuste Fino de Vision Transformer

Resumen

La suavidad de la arquitectura transformer ha sido ampliamente estudiada en el contexto de la generalización, la estabilidad del entrenamiento y la robustez adversarial. Sin embargo, su papel en el aprendizaje por transferencia sigue siendo poco comprendido. En este artículo, analizamos la capacidad de los componentes del vision transformer para adaptar sus salidas a cambios en las entradas, o, en otras palabras, su plasticidad. Definida como una tasa promedio de cambio, captura la sensibilidad a la perturbación de la entrada; en particular, una plasticidad alta implica una suavidad baja. Demostramos mediante análisis teórico y experimentos exhaustivos que esta perspectiva proporciona una guía fundamentada para elegir los componentes a priorizar durante la adaptación. Una conclusión clave para los profesionales es que la alta plasticidad de los módulos de atención y las capas feedforward conduce consistentemente a un mejor rendimiento durante el ajuste fino. Nuestros hallazgos se apartan de la suposición predominante de que la suavidad es deseable, ofreciendo una nueva perspectiva sobre las propiedades funcionales de los transformers. El código está disponible en https://github.com/ambroiseodt/vit-plasticity.

English

The smoothness of the transformer architecture has been extensively studied in the context of generalization, training stability, and adversarial robustness. However, its role in transfer learning remains poorly understood. In this paper, we analyze the ability of vision transformer components to adapt their outputs to changes in inputs, or, in other words, their plasticity. Defined as an average rate of change, it captures the sensitivity to input perturbation; in particular, a high plasticity implies low smoothness. We demonstrate through theoretical analysis and comprehensive experiments that this perspective provides principled guidance in choosing the components to prioritize during adaptation. A key takeaway for practitioners is that the high plasticity of the attention modules and feedforward layers consistently leads to better finetuning performance. Our findings depart from the prevailing assumption that smoothness is desirable, offering a novel perspective on the functional properties of transformers. The code is available at https://github.com/ambroiseodt/vit-plasticity.