視覚表現学習におけるバックボーン-オプティマイザーの結合バイアスの解明
Unveiling the Backbone-Optimizer Coupling Bias in Visual Representation Learning
October 8, 2024
著者: Siyuan Li, Juanxi Tian, Zedong Wang, Luyuan Zhang, Zicheng Liu, Weiyang Jin, Yang Liu, Baigui Sun, Stan Z. Li
cs.AI
要旨
本論文では、ビジョンのバックボーンと最適化アルゴリズムとの相互作用に焦点を当て、\textbf{backbone-optimizer coupling bias}(BOCB)と呼ばれる相互依存の現象を明らかにします。私たちは、VGGやResNetなどの代表的なCNNがSGDファミリーと顕著な相互依存関係を示す一方、ViTsやConvNeXtなどの最近のアーキテクチャは適応型学習率アルゴリズムと密接に結びついていることを観察しています。さらに、BOCBは最適化アルゴリズムや特定のバックボーン設計によって導入され、ビジョンモデルの事前学習およびダウンストリームの微調整に重大な影響を与える可能性があります。詳細な実証分析を通じて、推奨される最適化アルゴリズムに関する要点や堅牢なビジョンバックボーンアーキテクチャに関する洞察をまとめます。この研究がコミュニティにバックボーンと最適化アルゴリズムに関する長年の前提を問い直し、さらなる探求を促し、より堅牢なビジョンシステムに貢献することを願っています。ソースコードとモデルは https://bocb-ai.github.io/ で公開されています。
English
This paper delves into the interplay between vision backbones and optimizers,
unvealing an inter-dependent phenomenon termed
\textbf{backbone-optimizer coupling bias}
(BOCB). We observe that canonical CNNs, such as VGG and ResNet, exhibit a
marked co-dependency with SGD families, while recent architectures like ViTs
and ConvNeXt share a tight coupling with the adaptive learning rate ones. We
further show that BOCB can be introduced by both optimizers and certain
backbone designs and may significantly impact the pre-training and downstream
fine-tuning of vision models. Through in-depth empirical analysis, we summarize
takeaways on recommended optimizers and insights into robust vision backbone
architectures. We hope this work can inspire the community to question
long-held assumptions on backbones and optimizers, stimulate further
explorations, and thereby contribute to more robust vision systems. The source
code and models are publicly available at https://bocb-ai.github.io/.Summary
AI-Generated Summary