Revelando el Sesgo de Acoplamiento entre la Espina Dorsal y el Optimizador en el Aprendizaje de Representaciones Visuales

Resumen

Este documento explora la interacción entre las espinas dorsales de visión y los optimizadores, revelando un fenómeno interdependiente denominado \textbf{sesgo de acoplamiento espinadorsal-optimizador} (BOCB). Observamos que las CNN canónicas, como VGG y ResNet, muestran una marcada co-dependencia con las familias de SGD, mientras que arquitecturas recientes como ViTs y ConvNeXt comparten un acoplamiento estrecho con aquellas que utilizan una tasa de aprendizaje adaptativa. Además, demostramos que el BOCB puede ser introducido tanto por optimizadores como por ciertos diseños de espinas dorsales y puede impactar significativamente en el pre-entrenamiento y ajuste fino de modelos de visión. A través de un análisis empírico en profundidad, resumimos conclusiones sobre los optimizadores recomendados y conocimientos sobre arquitecturas robustas de espinas dorsales de visión. Esperamos que este trabajo inspire a la comunidad a cuestionar suposiciones arraigadas sobre espinas dorsales y optimizadores, estimule nuevas exploraciones y, de esta manera, contribuya a sistemas de visión más robustos. El código fuente y los modelos están disponibles públicamente en https://bocb-ai.github.io/.

English

This paper delves into the interplay between vision backbones and optimizers, unvealing an inter-dependent phenomenon termed \textbf{backbone-optimizer coupling bias} (BOCB). We observe that canonical CNNs, such as VGG and ResNet, exhibit a marked co-dependency with SGD families, while recent architectures like ViTs and ConvNeXt share a tight coupling with the adaptive learning rate ones. We further show that BOCB can be introduced by both optimizers and certain backbone designs and may significantly impact the pre-training and downstream fine-tuning of vision models. Through in-depth empirical analysis, we summarize takeaways on recommended optimizers and insights into robust vision backbone architectures. We hope this work can inspire the community to question long-held assumptions on backbones and optimizers, stimulate further explorations, and thereby contribute to more robust vision systems. The source code and models are publicly available at https://bocb-ai.github.io/.