Révéler le biais de couplage entre le Backbone et l'Optimiseur dans l'Apprentissage des Représentations Visuelles
Unveiling the Backbone-Optimizer Coupling Bias in Visual Representation Learning
October 8, 2024
Auteurs: Siyuan Li, Juanxi Tian, Zedong Wang, Luyuan Zhang, Zicheng Liu, Weiyang Jin, Yang Liu, Baigui Sun, Stan Z. Li
cs.AI
Résumé
Cet article explore l'interaction entre les structures de vision et les optimiseurs, révélant un phénomène interdépendant appelé \textbf{biais de couplage structure-optimiseur} (BCSO). Nous observons que les CNN canoniques, tels que VGG et ResNet, présentent une forte corrélation avec les familles de SGD, tandis que les architectures récentes comme ViTs et ConvNeXt partagent un couplage étroit avec ceux utilisant un taux d'apprentissage adaptatif. Nous montrons en outre que le BCSO peut être introduit à la fois par les optimiseurs et certains designs de structures, et peut avoir un impact significatif sur la pré-formation et l'ajustement fin ultérieur des modèles de vision. À travers une analyse empirique approfondie, nous résumons les conclusions sur les optimiseurs recommandés et les perspectives concernant les architectures robustes de structures de vision. Nous espérons que ce travail pourra inspirer la communauté à remettre en question les hypothèses de longue date sur les structures et les optimiseurs, stimuler de nouvelles explorations, et ainsi contribuer à des systèmes de vision plus robustes. Le code source et les modèles sont disponibles publiquement sur https://bocb-ai.github.io/.
English
This paper delves into the interplay between vision backbones and optimizers,
unvealing an inter-dependent phenomenon termed
\textbf{backbone-optimizer coupling bias}
(BOCB). We observe that canonical CNNs, such as VGG and ResNet, exhibit a
marked co-dependency with SGD families, while recent architectures like ViTs
and ConvNeXt share a tight coupling with the adaptive learning rate ones. We
further show that BOCB can be introduced by both optimizers and certain
backbone designs and may significantly impact the pre-training and downstream
fine-tuning of vision models. Through in-depth empirical analysis, we summarize
takeaways on recommended optimizers and insights into robust vision backbone
architectures. We hope this work can inspire the community to question
long-held assumptions on backbones and optimizers, stimulate further
explorations, and thereby contribute to more robust vision systems. The source
code and models are publicly available at https://bocb-ai.github.io/.Summary
AI-Generated Summary