Wann benötigen wir keine größeren Vision-Modelle?
When Do We Not Need Larger Vision Models?
March 19, 2024
Autoren: Baifeng Shi, Ziyang Wu, Maolin Mao, Xin Wang, Trevor Darrell
cs.AI
Zusammenfassung
Die Skalierung der Größe von Vision-Modellen ist der Standard, um leistungsstärkere visuelle Repräsentationen zu erhalten. In dieser Arbeit diskutieren wir den Punkt, an dem größere Vision-Modelle nicht mehr notwendig sind. Zunächst zeigen wir die Leistung von Skalierung auf Skalen (S^2), wobei ein vortrainiertes und eingefrorenes kleineres Vision-Modell (z.B. ViT-B oder ViT-L), das über mehrere Bildskalen ausgeführt wird, größere Modelle (z.B. ViT-H oder ViT-G) in Klassifizierung, Segmentierung, Tiefenschätzung, Multimodale LLM (MLLM)-Benchmarks und robotische Manipulation übertreffen kann. Bemerkenswerterweise erreicht S^2 eine Spitzenleistung im detaillierten Verständnis von MLLM auf dem V*-Benchmark und übertrifft Modelle wie GPT-4V. Wir untersuchen die Bedingungen, unter denen S^2 im Vergleich zur Skalierung der Modellgröße ein bevorzugter Skalierungsansatz ist. Während größere Modelle den Vorteil einer besseren Verallgemeinerung bei schwierigen Beispielen haben, zeigen wir, dass Merkmale größerer Vision-Modelle gut durch die von mehrskaligen kleineren Modellen approximiert werden können. Dies legt nahe, dass die meisten, wenn nicht alle, von aktuellen großen vortrainierten Modellen gelernten Repräsentationen auch von mehrskaligen kleineren Modellen erhalten werden können. Unsere Ergebnisse zeigen, dass ein mehrskaliges kleineres Modell eine vergleichbare Lernkapazität wie ein größeres Modell hat und das Vortrainieren kleinerer Modelle mit S^2 den Vorteil größerer Modelle erreichen oder sogar übertreffen kann. Wir veröffentlichen ein Python-Paket, das S^2 auf jedes Vision-Modell mit einer Codezeile anwenden kann: https://github.com/bfshi/scaling_on_scales.
English
Scaling up the size of vision models has been the de facto standard to obtain
more powerful visual representations. In this work, we discuss the point beyond
which larger vision models are not necessary. First, we demonstrate the power
of Scaling on Scales (S^2), whereby a pre-trained and frozen smaller vision
model (e.g., ViT-B or ViT-L), run over multiple image scales, can outperform
larger models (e.g., ViT-H or ViT-G) on classification, segmentation, depth
estimation, Multimodal LLM (MLLM) benchmarks, and robotic manipulation.
Notably, S^2 achieves state-of-the-art performance in detailed understanding
of MLLM on the V* benchmark, surpassing models such as GPT-4V. We examine the
conditions under which S^2 is a preferred scaling approach compared to
scaling on model size. While larger models have the advantage of better
generalization on hard examples, we show that features of larger vision models
can be well approximated by those of multi-scale smaller models. This suggests
most, if not all, of the representations learned by current large pre-trained
models can also be obtained from multi-scale smaller models. Our results show
that a multi-scale smaller model has comparable learning capacity to a larger
model, and pre-training smaller models with S^2 can match or even exceed the
advantage of larger models. We release a Python package that can apply S^2 on
any vision model with one line of code:
https://github.com/bfshi/scaling_on_scales.Summary
AI-Generated Summary