ChatPaper.aiChatPaper

Wanneer hebben we geen grotere visionmodellen nodig?

When Do We Not Need Larger Vision Models?

March 19, 2024
Auteurs: Baifeng Shi, Ziyang Wu, Maolin Mao, Xin Wang, Trevor Darrell
cs.AI

Samenvatting

Het opschalen van de grootte van vision-modellen is de facto de standaard geworden om krachtigere visuele representaties te verkrijgen. In dit werk bespreken we het punt waarop grotere vision-modellen niet langer nodig zijn. Eerst tonen we de kracht van Scaling on Scales (S^2) aan, waarbij een vooraf getraind en bevroren kleiner vision-model (bijv. ViT-B of ViT-L), uitgevoerd over meerdere beeldschalen, grotere modellen (bijv. ViT-H of ViT-G) kan overtreffen op classificatie, segmentatie, diepteschatting, Multimodale LLM (MLLM)-benchmarks en robotmanipulatie. Opmerkelijk is dat S^2 state-of-the-art prestaties behaalt in gedetailleerd begrip van MLLM op de V*-benchmark, waarbij modellen zoals GPT-4V worden overtroffen. We onderzoeken de voorwaarden waaronder S^2 een voorkeursbenadering is voor schaling in vergelijking met schaling op modelgrootte. Hoewel grotere modellen het voordeel hebben van betere generalisatie op moeilijke voorbeelden, laten we zien dat de kenmerken van grotere vision-modellen goed kunnen worden benaderd door die van multi-schaal kleinere modellen. Dit suggereert dat de meeste, zo niet alle, representaties die door huidige grote vooraf getrainde modellen worden geleerd, ook kunnen worden verkregen uit multi-schaal kleinere modellen. Onze resultaten laten zien dat een multi-schaal kleiner model een vergelijkbare leercapaciteit heeft als een groter model, en dat het vooraf trainen van kleinere modellen met S^2 het voordeel van grotere modellen kan evenaren of zelfs overtreffen. We brengen een Python-pakket uit dat S^2 met één regel code op elk vision-model kan toepassen: https://github.com/bfshi/scaling_on_scales.
English
Scaling up the size of vision models has been the de facto standard to obtain more powerful visual representations. In this work, we discuss the point beyond which larger vision models are not necessary. First, we demonstrate the power of Scaling on Scales (S^2), whereby a pre-trained and frozen smaller vision model (e.g., ViT-B or ViT-L), run over multiple image scales, can outperform larger models (e.g., ViT-H or ViT-G) on classification, segmentation, depth estimation, Multimodal LLM (MLLM) benchmarks, and robotic manipulation. Notably, S^2 achieves state-of-the-art performance in detailed understanding of MLLM on the V* benchmark, surpassing models such as GPT-4V. We examine the conditions under which S^2 is a preferred scaling approach compared to scaling on model size. While larger models have the advantage of better generalization on hard examples, we show that features of larger vision models can be well approximated by those of multi-scale smaller models. This suggests most, if not all, of the representations learned by current large pre-trained models can also be obtained from multi-scale smaller models. Our results show that a multi-scale smaller model has comparable learning capacity to a larger model, and pre-training smaller models with S^2 can match or even exceed the advantage of larger models. We release a Python package that can apply S^2 on any vision model with one line of code: https://github.com/bfshi/scaling_on_scales.
PDF262February 8, 2026