Bataille des architectures : Une comparaison à grande échelle des modèles pré-entraînés sur les tâches de vision par ordinateur
Battle of the Backbones: A Large-Scale Comparison of Pretrained Models across Computer Vision Tasks
October 30, 2023
Auteurs: Micah Goldblum, Hossein Souri, Renkun Ni, Manli Shu, Viraj Prabhu, Gowthami Somepalli, Prithvijit Chattopadhyay, Mark Ibrahim, Adrien Bardes, Judy Hoffman, Rama Chellappa, Andrew Gordon Wilson, Tom Goldstein
cs.AI
Résumé
Les systèmes de vision par ordinateur basés sur des réseaux de neurones reposent généralement sur un *backbone*, un extracteur de caractéristiques pré-entraîné ou initialisé aléatoirement. Il y a plusieurs années, l'option par défaut était un réseau de neurones convolutifs entraîné sur ImageNet. Cependant, ces dernières années ont vu émerger une multitude de *backbones* pré-entraînés à l'aide de divers algorithmes et jeux de données. Bien que cette abondance de choix ait permis d'améliorer les performances de nombreux systèmes, il est difficile pour les praticiens de prendre des décisions éclairées sur le *backbone* à choisir. *Battle of the Backbones* (BoB) facilite ce choix en évaluant une diversité de modèles pré-entraînés, y compris des modèles vision-langage, ceux entraînés via l'apprentissage auto-supervisé, et le *backbone* de Stable Diffusion, sur un large éventail de tâches de vision par ordinateur allant de la classification à la détection d'objets, en passant par la généralisation hors distribution (OOD) et bien plus encore. De plus, BoB met en lumière des directions prometteuses pour la communauté de recherche afin de faire progresser la vision par ordinateur, en révélant les forces et les faiblesses des approches existantes grâce à une analyse approfondie menée sur plus de 1500 sessions d'entraînement. Bien que les transformeurs de vision (ViTs) et l'apprentissage auto-supervisé (SSL) gagnent en popularité, nous constatons que les réseaux de neurones convolutifs pré-entraînés de manière supervisée sur de grands ensembles de données restent les plus performants sur la plupart des tâches parmi les modèles que nous avons considérés. Par ailleurs, dans des comparaisons directes sur les mêmes architectures et des jeux de données de pré-entraînement de taille similaire, nous observons que les *backbones* SSL sont très compétitifs, ce qui suggère que les travaux futurs devraient effectuer un pré-entraînement SSL avec des architectures avancées et des jeux de données de pré-entraînement plus vastes. Nous publions les résultats bruts de nos expériences ainsi que le code permettant aux chercheurs de soumettre leurs propres *backbones* à l'épreuve ici : https://github.com/hsouri/Battle-of-the-Backbones.
English
Neural network based computer vision systems are typically built on a
backbone, a pretrained or randomly initialized feature extractor. Several years
ago, the default option was an ImageNet-trained convolutional neural network.
However, the recent past has seen the emergence of countless backbones
pretrained using various algorithms and datasets. While this abundance of
choice has led to performance increases for a range of systems, it is difficult
for practitioners to make informed decisions about which backbone to choose.
Battle of the Backbones (BoB) makes this choice easier by benchmarking a
diverse suite of pretrained models, including vision-language models, those
trained via self-supervised learning, and the Stable Diffusion backbone, across
a diverse set of computer vision tasks ranging from classification to object
detection to OOD generalization and more. Furthermore, BoB sheds light on
promising directions for the research community to advance computer vision by
illuminating strengths and weakness of existing approaches through a
comprehensive analysis conducted on more than 1500 training runs. While vision
transformers (ViTs) and self-supervised learning (SSL) are increasingly
popular, we find that convolutional neural networks pretrained in a supervised
fashion on large training sets still perform best on most tasks among the
models we consider. Moreover, in apples-to-apples comparisons on the same
architectures and similarly sized pretraining datasets, we find that SSL
backbones are highly competitive, indicating that future works should perform
SSL pretraining with advanced architectures and larger pretraining datasets. We
release the raw results of our experiments along with code that allows
researchers to put their own backbones through the gauntlet here:
https://github.com/hsouri/Battle-of-the-Backbones