ChatPaper.aiChatPaper

Batalha dos Backbones: Uma Comparação em Grande Escala de Modelos Pré-treinados em Tarefas de Visão Computacional

Battle of the Backbones: A Large-Scale Comparison of Pretrained Models across Computer Vision Tasks

October 30, 2023
Autores: Micah Goldblum, Hossein Souri, Renkun Ni, Manli Shu, Viraj Prabhu, Gowthami Somepalli, Prithvijit Chattopadhyay, Mark Ibrahim, Adrien Bardes, Judy Hoffman, Rama Chellappa, Andrew Gordon Wilson, Tom Goldstein
cs.AI

Resumo

Sistemas de visão computacional baseados em redes neurais são tipicamente construídos sobre um _backbone_, um extrator de características pré-treinado ou inicializado aleatoriamente. Alguns anos atrás, a opção padrão era uma rede neural convolucional treinada no ImageNet. No entanto, o passado recente testemunhou o surgimento de inúmeros _backbones_ pré-treinados usando diversos algoritmos e conjuntos de dados. Embora essa abundância de escolhas tenha levado a melhorias de desempenho em uma variedade de sistemas, é difícil para os profissionais tomar decisões informadas sobre qual _backbone_ escolher. O _Battle of the Backbones_ (BoB) facilita essa escolha ao avaliar uma ampla gama de modelos pré-treinados, incluindo modelos de visão e linguagem, aqueles treinados por meio de aprendizado auto-supervisionado e o _backbone_ do Stable Diffusion, em um conjunto diversificado de tarefas de visão computacional, desde classificação até detecção de objetos, generalização fora da distribuição (OOD) e mais. Além disso, o BoB ilumina direções promissoras para a comunidade de pesquisa avançar a visão computacional, destacando pontos fortes e fracos das abordagens existentes por meio de uma análise abrangente realizada em mais de 1500 execuções de treinamento. Embora os transformadores de visão (ViTs) e o aprendizado auto-supervisionado (SSL) estejam cada vez mais populares, descobrimos que as redes neurais convolucionais pré-treinadas de forma supervisionada em grandes conjuntos de dados ainda apresentam o melhor desempenho na maioria das tarefas entre os modelos que consideramos. Além disso, em comparações diretas com as mesmas arquiteturas e conjuntos de dados de pré-treinamento de tamanho similar, descobrimos que os _backbones_ SSL são altamente competitivos, indicando que trabalhos futuros devem realizar pré-treinamento SSL com arquiteturas avançadas e conjuntos de dados de pré-treinamento maiores. Disponibilizamos os resultados brutos de nossos experimentos, juntamente com o código que permite aos pesquisadores testar seus próprios _backbones_ aqui: https://github.com/hsouri/Battle-of-the-Backbones.
English
Neural network based computer vision systems are typically built on a backbone, a pretrained or randomly initialized feature extractor. Several years ago, the default option was an ImageNet-trained convolutional neural network. However, the recent past has seen the emergence of countless backbones pretrained using various algorithms and datasets. While this abundance of choice has led to performance increases for a range of systems, it is difficult for practitioners to make informed decisions about which backbone to choose. Battle of the Backbones (BoB) makes this choice easier by benchmarking a diverse suite of pretrained models, including vision-language models, those trained via self-supervised learning, and the Stable Diffusion backbone, across a diverse set of computer vision tasks ranging from classification to object detection to OOD generalization and more. Furthermore, BoB sheds light on promising directions for the research community to advance computer vision by illuminating strengths and weakness of existing approaches through a comprehensive analysis conducted on more than 1500 training runs. While vision transformers (ViTs) and self-supervised learning (SSL) are increasingly popular, we find that convolutional neural networks pretrained in a supervised fashion on large training sets still perform best on most tasks among the models we consider. Moreover, in apples-to-apples comparisons on the same architectures and similarly sized pretraining datasets, we find that SSL backbones are highly competitive, indicating that future works should perform SSL pretraining with advanced architectures and larger pretraining datasets. We release the raw results of our experiments along with code that allows researchers to put their own backbones through the gauntlet here: https://github.com/hsouri/Battle-of-the-Backbones
PDF211February 7, 2026