ChatPaper.aiChatPaper

Раскрытие предвзятости связи между основой и оптимизатором в обучении визуальным представлениям

Unveiling the Backbone-Optimizer Coupling Bias in Visual Representation Learning

October 8, 2024
Авторы: Siyuan Li, Juanxi Tian, Zedong Wang, Luyuan Zhang, Zicheng Liu, Weiyang Jin, Yang Liu, Baigui Sun, Stan Z. Li
cs.AI

Аннотация

Эта статья исследует взаимодействие между основами зрения и оптимизаторами, раскрывая взаимозависимое явление, названное \textbf{смещением связи между основой и оптимизатором} (BOCB). Мы наблюдаем, что классические сверточные нейронные сети, такие как VGG и ResNet, проявляют выраженную взаимозависимость с семействами SGD, в то время как недавние архитектуры, такие как ViTs и ConvNeXt, демонстрируют тесную связь с оптимизаторами адаптивной скорости обучения. Мы также показываем, что BOCB может быть вызван как оптимизаторами, так и определенными конструкциями основы и может значительно влиять на предварительное обучение и последующую настройку зрительных моделей. Проведя глубокий эмпирический анализ, мы обобщаем выводы о рекомендуемых оптимизаторах и идеях о надежных архитектурах основ зрения. Мы надеемся, что данная работа вдохновит сообщество на вопросы давно устоявшихся представлений об основах и оптимизаторах, стимулирует дальнейшие исследования и таким образом способствует созданию более надежных систем зрения. Исходный код и модели доступны по адресу https://bocb-ai.github.io/.
English
This paper delves into the interplay between vision backbones and optimizers, unvealing an inter-dependent phenomenon termed \textbf{backbone-optimizer coupling bias} (BOCB). We observe that canonical CNNs, such as VGG and ResNet, exhibit a marked co-dependency with SGD families, while recent architectures like ViTs and ConvNeXt share a tight coupling with the adaptive learning rate ones. We further show that BOCB can be introduced by both optimizers and certain backbone designs and may significantly impact the pre-training and downstream fine-tuning of vision models. Through in-depth empirical analysis, we summarize takeaways on recommended optimizers and insights into robust vision backbone architectures. We hope this work can inspire the community to question long-held assumptions on backbones and optimizers, stimulate further explorations, and thereby contribute to more robust vision systems. The source code and models are publicly available at https://bocb-ai.github.io/.

Summary

AI-Generated Summary

PDF343November 16, 2024