ChatPaper.aiChatPaper

Revelando o Viés de Acoplamento entre Backbone e Otimizador na Aprendizagem de Representações Visuais

Unveiling the Backbone-Optimizer Coupling Bias in Visual Representation Learning

October 8, 2024
Autores: Siyuan Li, Juanxi Tian, Zedong Wang, Luyuan Zhang, Zicheng Liu, Weiyang Jin, Yang Liu, Baigui Sun, Stan Z. Li
cs.AI

Resumo

Este artigo explora a interação entre espinhas dorsais de visão e otimizadores, revelando um fenômeno interdependente denominado \textbf{viés de acoplamento espinha dorsal-otimizador} (BOCB). Observamos que CNNs canônicas, como VGG e ResNet, exibem uma marcada co-dependência com famílias SGD, enquanto arquiteturas recentes como ViTs e ConvNeXt compartilham um acoplamento estreito com os que possuem taxa de aprendizado adaptativa. Demonstramos ainda que o BOCB pode ser introduzido tanto por otimizadores quanto por certos projetos de espinha dorsal e pode impactar significativamente o pré-treinamento e o ajuste fino downstream de modelos de visão. Através de uma análise empírica aprofundada, resumimos lições sobre otimizadores recomendados e insights sobre arquiteturas robustas de espinha dorsal de visão. Esperamos que este trabalho possa inspirar a comunidade a questionar pressupostos de longa data sobre espinhas dorsais e otimizadores, estimular mais explorações e, assim, contribuir para sistemas de visão mais robustos. O código-fonte e os modelos estão disponíveis publicamente em https://bocb-ai.github.io/.
English
This paper delves into the interplay between vision backbones and optimizers, unvealing an inter-dependent phenomenon termed \textbf{backbone-optimizer coupling bias} (BOCB). We observe that canonical CNNs, such as VGG and ResNet, exhibit a marked co-dependency with SGD families, while recent architectures like ViTs and ConvNeXt share a tight coupling with the adaptive learning rate ones. We further show that BOCB can be introduced by both optimizers and certain backbone designs and may significantly impact the pre-training and downstream fine-tuning of vision models. Through in-depth empirical analysis, we summarize takeaways on recommended optimizers and insights into robust vision backbone architectures. We hope this work can inspire the community to question long-held assumptions on backbones and optimizers, stimulate further explorations, and thereby contribute to more robust vision systems. The source code and models are publicly available at https://bocb-ai.github.io/.

Summary

AI-Generated Summary

PDF343November 16, 2024