시각 표현 학습에서의 백본-옵티마이저 결합 편향 노출
Unveiling the Backbone-Optimizer Coupling Bias in Visual Representation Learning
October 8, 2024
저자: Siyuan Li, Juanxi Tian, Zedong Wang, Luyuan Zhang, Zicheng Liu, Weiyang Jin, Yang Liu, Baigui Sun, Stan Z. Li
cs.AI
초록
본 논문은 시각 백본과 옵티마이저 간의 상호작용에 대해 탐구하며, \textbf{백본-옵티마이저 결합 편향} (BOCB)이라는 상호의존 현상을 밝혀냅니다. 우리는 VGG와 ResNet과 같은 전통적인 CNN이 SGD 계열과 뚜렷한 상호의존성을 보이는 반면, ViTs와 ConvNeXt와 같은 최근 구조는 적응형 학습률 옵티마이저와 밀접한 결합을 공유한다는 것을 관찰했습니다. 또한 BOCB가 옵티마이저와 특정 백본 설계에 의해 도입될 수 있으며, 시각 모델의 사전 훈련 및 하류 미세 조정에 중대한 영향을 줄 수 있다는 것을 보여줍니다. 철저한 경험적 분석을 통해 권장되는 옵티마이저에 대한 결론과 견고한 시각 백본 구조에 대한 통찰을 요약합니다. 본 연구가 백본과 옵티마이저에 대한 오래된 가정에 의문을 제기하고, 추가적인 탐구를 촉진하며, 이로써 더 견고한 시각 시스템에 기여할 수 있기를 희망합니다. 소스 코드와 모델은 https://bocb-ai.github.io/에서 공개적으로 제공됩니다.
English
This paper delves into the interplay between vision backbones and optimizers,
unvealing an inter-dependent phenomenon termed
\textbf{backbone-optimizer coupling bias}
(BOCB). We observe that canonical CNNs, such as VGG and ResNet, exhibit a
marked co-dependency with SGD families, while recent architectures like ViTs
and ConvNeXt share a tight coupling with the adaptive learning rate ones. We
further show that BOCB can be introduced by both optimizers and certain
backbone designs and may significantly impact the pre-training and downstream
fine-tuning of vision models. Through in-depth empirical analysis, we summarize
takeaways on recommended optimizers and insights into robust vision backbone
architectures. We hope this work can inspire the community to question
long-held assumptions on backbones and optimizers, stimulate further
explorations, and thereby contribute to more robust vision systems. The source
code and models are publicly available at https://bocb-ai.github.io/.Summary
AI-Generated Summary