Strijd der Backbones: Een grootschalige vergelijking van vooraf getrainde modellen voor computervisietaken
Battle of the Backbones: A Large-Scale Comparison of Pretrained Models across Computer Vision Tasks
October 30, 2023
Auteurs: Micah Goldblum, Hossein Souri, Renkun Ni, Manli Shu, Viraj Prabhu, Gowthami Somepalli, Prithvijit Chattopadhyay, Mark Ibrahim, Adrien Bardes, Judy Hoffman, Rama Chellappa, Andrew Gordon Wilson, Tom Goldstein
cs.AI
Samenvatting
Neuraalnetwerk-gebaseerde computervisiesystemen zijn doorgaans gebouwd op een backbone, een vooraf getrainde of willekeurig geïnitialiseerde feature extractor. Enkele jaren geleden was de standaardoptie een op ImageNet getraind convolutioneel neuraal netwerk. Echter, de afgelopen jaren hebben we de opkomst gezien van talloze backbones die zijn voorgetraind met behulp van verschillende algoritmen en datasets. Hoewel deze overvloed aan keuzes heeft geleid tot prestatieverbeteringen voor een reeks systemen, is het voor praktijkmensen moeilijk om weloverwogen beslissingen te nemen over welke backbone ze moeten kiezen. Battle of the Backbones (BoB) maakt deze keuze eenvoudiger door een diverse reeks voorgetrainde modellen te benchmarken, waaronder visie-taalmodellen, modellen die zijn getraind via zelfsupervised learning, en de Stable Diffusion-backbone, over een breed scala aan computervisietaken, variërend van classificatie tot objectdetectie, OOD-generalizatie en meer. Bovendien werpt BoB licht op veelbelovende richtingen voor de onderzoeksgemeenschap om computervisie verder te ontwikkelen door de sterke en zwakke punten van bestaande benaderingen te belichten via een uitgebreide analyse die is uitgevoerd op meer dan 1500 trainingsruns. Hoewel vision transformers (ViTs) en zelfsupervised learning (SSL) steeds populairder worden, ontdekken we dat convolutionele neurale netwerken die op een gesuperviseerde manier zijn voorgetraind op grote trainingssets nog steeds het beste presteren op de meeste taken onder de modellen die we beschouwen. Bovendien, in directe vergelijkingen op dezelfde architecturen en even grote vooraf getrainde datasets, vinden we dat SSL-backbones zeer concurrerend zijn, wat aangeeft dat toekomstige werken SSL-voorpretraining moeten uitvoeren met geavanceerde architecturen en grotere vooraf getrainde datasets. We publiceren de ruwe resultaten van onze experimenten samen met code die onderzoekers in staat stelt om hun eigen backbones door de test te halen hier: https://github.com/hsouri/Battle-of-the-Backbones.
English
Neural network based computer vision systems are typically built on a
backbone, a pretrained or randomly initialized feature extractor. Several years
ago, the default option was an ImageNet-trained convolutional neural network.
However, the recent past has seen the emergence of countless backbones
pretrained using various algorithms and datasets. While this abundance of
choice has led to performance increases for a range of systems, it is difficult
for practitioners to make informed decisions about which backbone to choose.
Battle of the Backbones (BoB) makes this choice easier by benchmarking a
diverse suite of pretrained models, including vision-language models, those
trained via self-supervised learning, and the Stable Diffusion backbone, across
a diverse set of computer vision tasks ranging from classification to object
detection to OOD generalization and more. Furthermore, BoB sheds light on
promising directions for the research community to advance computer vision by
illuminating strengths and weakness of existing approaches through a
comprehensive analysis conducted on more than 1500 training runs. While vision
transformers (ViTs) and self-supervised learning (SSL) are increasingly
popular, we find that convolutional neural networks pretrained in a supervised
fashion on large training sets still perform best on most tasks among the
models we consider. Moreover, in apples-to-apples comparisons on the same
architectures and similarly sized pretraining datasets, we find that SSL
backbones are highly competitive, indicating that future works should perform
SSL pretraining with advanced architectures and larger pretraining datasets. We
release the raw results of our experiments along with code that allows
researchers to put their own backbones through the gauntlet here:
https://github.com/hsouri/Battle-of-the-Backbones