ChatPaper.aiChatPaper

Het onthullen van de Bias in de Koppeling tussen de Backbone en Optimizer in het Leren van Visuele Representaties

Unveiling the Backbone-Optimizer Coupling Bias in Visual Representation Learning

October 8, 2024
Auteurs: Siyuan Li, Juanxi Tian, Zedong Wang, Luyuan Zhang, Zicheng Liu, Weiyang Jin, Yang Liu, Baigui Sun, Stan Z. Li
cs.AI

Samenvatting

Dit artikel gaat in op de wisselwerking tussen visuele backbones en optimalisatoren, waarbij een onderling afhankelijk fenomeen genaamd \textbf{backbone-optimizer koppelingsbias} (BOCB) wordt onthuld. We merken op dat canonieke CNN's, zoals VGG en ResNet, een duidelijke onderlinge afhankelijkheid vertonen met SGD-families, terwijl recente architecturen zoals ViTs en ConvNeXt een nauwe koppeling hebben met de adaptieve leersnelheidsoptimalisatoren. We tonen verder aan dat BOCB zowel door optimalisatoren als bepaalde backbone-ontwerpen geïntroduceerd kan worden en aanzienlijke invloed kan hebben op het vooraf trainen en het fijnafstemmen van visiemodellen. Via diepgaande empirische analyse vatten we aanbevelingen samen over aanbevolen optimalisatoren en inzichten in robuuste visuele backbone-architecturen. We hopen dat dit werk de gemeenschap kan inspireren om lang gekoesterde aannames over backbones en optimalisatoren in twijfel te trekken, verdere verkenningen te stimuleren en zo bij te dragen aan meer robuuste visiesystemen. De broncode en modellen zijn openbaar beschikbaar op https://bocb-ai.github.io/.
English
This paper delves into the interplay between vision backbones and optimizers, unvealing an inter-dependent phenomenon termed \textbf{backbone-optimizer coupling bias} (BOCB). We observe that canonical CNNs, such as VGG and ResNet, exhibit a marked co-dependency with SGD families, while recent architectures like ViTs and ConvNeXt share a tight coupling with the adaptive learning rate ones. We further show that BOCB can be introduced by both optimizers and certain backbone designs and may significantly impact the pre-training and downstream fine-tuning of vision models. Through in-depth empirical analysis, we summarize takeaways on recommended optimizers and insights into robust vision backbone architectures. We hope this work can inspire the community to question long-held assumptions on backbones and optimizers, stimulate further explorations, and thereby contribute to more robust vision systems. The source code and models are publicly available at https://bocb-ai.github.io/.

Summary

AI-Generated Summary

PDF343November 16, 2024