Revelando el Sesgo de Acoplamiento entre la Espina Dorsal y el Optimizador en el Aprendizaje de Representaciones Visuales
Unveiling the Backbone-Optimizer Coupling Bias in Visual Representation Learning
October 8, 2024
Autores: Siyuan Li, Juanxi Tian, Zedong Wang, Luyuan Zhang, Zicheng Liu, Weiyang Jin, Yang Liu, Baigui Sun, Stan Z. Li
cs.AI
Resumen
Este documento explora la interacción entre las espinas dorsales de visión y los optimizadores, revelando un fenómeno interdependiente denominado \textbf{sesgo de acoplamiento espinadorsal-optimizador} (BOCB). Observamos que las CNN canónicas, como VGG y ResNet, muestran una marcada co-dependencia con las familias de SGD, mientras que arquitecturas recientes como ViTs y ConvNeXt comparten un acoplamiento estrecho con aquellas que utilizan una tasa de aprendizaje adaptativa. Además, demostramos que el BOCB puede ser introducido tanto por optimizadores como por ciertos diseños de espinas dorsales y puede impactar significativamente en el pre-entrenamiento y ajuste fino de modelos de visión. A través de un análisis empírico en profundidad, resumimos conclusiones sobre los optimizadores recomendados y conocimientos sobre arquitecturas robustas de espinas dorsales de visión. Esperamos que este trabajo inspire a la comunidad a cuestionar suposiciones arraigadas sobre espinas dorsales y optimizadores, estimule nuevas exploraciones y, de esta manera, contribuya a sistemas de visión más robustos. El código fuente y los modelos están disponibles públicamente en https://bocb-ai.github.io/.
English
This paper delves into the interplay between vision backbones and optimizers,
unvealing an inter-dependent phenomenon termed
\textbf{backbone-optimizer coupling bias}
(BOCB). We observe that canonical CNNs, such as VGG and ResNet, exhibit a
marked co-dependency with SGD families, while recent architectures like ViTs
and ConvNeXt share a tight coupling with the adaptive learning rate ones. We
further show that BOCB can be introduced by both optimizers and certain
backbone designs and may significantly impact the pre-training and downstream
fine-tuning of vision models. Through in-depth empirical analysis, we summarize
takeaways on recommended optimizers and insights into robust vision backbone
architectures. We hope this work can inspire the community to question
long-held assumptions on backbones and optimizers, stimulate further
explorations, and thereby contribute to more robust vision systems. The source
code and models are publicly available at https://bocb-ai.github.io/.Summary
AI-Generated Summary