Quand n'avons-nous pas besoin de modèles de vision plus grands ?
When Do We Not Need Larger Vision Models?
March 19, 2024
Auteurs: Baifeng Shi, Ziyang Wu, Maolin Mao, Xin Wang, Trevor Darrell
cs.AI
Résumé
L'augmentation de la taille des modèles de vision a été la norme de facto pour obtenir des représentations visuelles plus puissantes. Dans ce travail, nous discutons du point au-delà duquel des modèles de vision plus grands ne sont plus nécessaires. Tout d'abord, nous démontrons la puissance de la mise à l'échelle sur les échelles (Scaling on Scales, S^2), selon laquelle un modèle de vision plus petit pré-entraîné et figé (par exemple, ViT-B ou ViT-L), exécuté sur plusieurs échelles d'images, peut surpasser des modèles plus grands (par exemple, ViT-H ou ViT-G) dans des tâches de classification, de segmentation, d'estimation de profondeur, de benchmarks de modèles de langage multimodaux (MLLM) et de manipulation robotique. Notamment, S^2 atteint des performances de pointe dans la compréhension détaillée des MLLM sur le benchmark V*, surpassant des modèles tels que GPT-4V. Nous examinons les conditions dans lesquelles S^2 est une approche de mise à l'échelle préférable par rapport à l'augmentation de la taille du modèle. Bien que les modèles plus grands aient l'avantage d'une meilleure généralisation sur des exemples difficiles, nous montrons que les caractéristiques des modèles de vision plus grands peuvent être bien approximées par celles de modèles plus petits multi-échelles. Cela suggère que la plupart, sinon toutes, des représentations apprises par les grands modèles pré-entraînés actuels peuvent également être obtenues à partir de modèles plus petits multi-échelles. Nos résultats montrent qu'un modèle plus petit multi-échelles a une capacité d'apprentissage comparable à celle d'un modèle plus grand, et que le pré-entraînement de modèles plus petits avec S^2 peut égaler voire dépasser l'avantage des modèles plus grands. Nous publions un package Python qui peut appliquer S^2 à n'importe quel modèle de vision avec une seule ligne de code : https://github.com/bfshi/scaling_on_scales.
English
Scaling up the size of vision models has been the de facto standard to obtain
more powerful visual representations. In this work, we discuss the point beyond
which larger vision models are not necessary. First, we demonstrate the power
of Scaling on Scales (S^2), whereby a pre-trained and frozen smaller vision
model (e.g., ViT-B or ViT-L), run over multiple image scales, can outperform
larger models (e.g., ViT-H or ViT-G) on classification, segmentation, depth
estimation, Multimodal LLM (MLLM) benchmarks, and robotic manipulation.
Notably, S^2 achieves state-of-the-art performance in detailed understanding
of MLLM on the V* benchmark, surpassing models such as GPT-4V. We examine the
conditions under which S^2 is a preferred scaling approach compared to
scaling on model size. While larger models have the advantage of better
generalization on hard examples, we show that features of larger vision models
can be well approximated by those of multi-scale smaller models. This suggests
most, if not all, of the representations learned by current large pre-trained
models can also be obtained from multi-scale smaller models. Our results show
that a multi-scale smaller model has comparable learning capacity to a larger
model, and pre-training smaller models with S^2 can match or even exceed the
advantage of larger models. We release a Python package that can apply S^2 on
any vision model with one line of code:
https://github.com/bfshi/scaling_on_scales.Summary
AI-Generated Summary