Quando Non Abbiamo Bisogno di Modelli Visivi Più Grandi?

Abstract

Aumentare le dimensioni dei modelli visivi è stato lo standard de facto per ottenere rappresentazioni visive più potenti. In questo lavoro, discutiamo il punto oltre il quale modelli visivi più grandi non sono necessari. Innanzitutto, dimostriamo la potenza di Scaling on Scales (S^2), per cui un modello visivo più piccolo pre-addestrato e congelato (ad esempio, ViT-B o ViT-L), eseguito su più scale di immagine, può superare modelli più grandi (ad esempio, ViT-H o ViT-G) in classificazione, segmentazione, stima della profondità, benchmark di MLLM (Multimodal Large Language Model) e manipolazione robotica. In particolare, S^2 raggiunge prestazioni all'avanguardia nella comprensione dettagliata di MLLM sul benchmark V*, superando modelli come GPT-4V. Esaminiamo le condizioni in cui S^2 è un approccio di scalabilità preferito rispetto all'aumento delle dimensioni del modello. Sebbene i modelli più grandi abbiano il vantaggio di una migliore generalizzazione su esempi difficili, mostriamo che le caratteristiche dei modelli visivi più grandi possono essere ben approssimate da quelle di modelli più piccoli multi-scala. Ciò suggerisce che la maggior parte, se non tutte, delle rappresentazioni apprese dagli attuali modelli pre-addestrati di grandi dimensioni possono essere ottenute anche da modelli più piccoli multi-scala. I nostri risultati mostrano che un modello più piccolo multi-scala ha una capacità di apprendimento comparabile a quella di un modello più grande, e il pre-addestramento di modelli più piccoli con S^2 può eguagliare o addirittura superare il vantaggio dei modelli più grandi. Rilasciamo un pacchetto Python che può applicare S^2 su qualsiasi modello visivo con una sola riga di codice: https://github.com/bfshi/scaling_on_scales.

English

Scaling up the size of vision models has been the de facto standard to obtain more powerful visual representations. In this work, we discuss the point beyond which larger vision models are not necessary. First, we demonstrate the power of Scaling on Scales (S^2), whereby a pre-trained and frozen smaller vision model (e.g., ViT-B or ViT-L), run over multiple image scales, can outperform larger models (e.g., ViT-H or ViT-G) on classification, segmentation, depth estimation, Multimodal LLM (MLLM) benchmarks, and robotic manipulation. Notably, S^2 achieves state-of-the-art performance in detailed understanding of MLLM on the V* benchmark, surpassing models such as GPT-4V. We examine the conditions under which S^2 is a preferred scaling approach compared to scaling on model size. While larger models have the advantage of better generalization on hard examples, we show that features of larger vision models can be well approximated by those of multi-scale smaller models. This suggests most, if not all, of the representations learned by current large pre-trained models can also be obtained from multi-scale smaller models. Our results show that a multi-scale smaller model has comparable learning capacity to a larger model, and pre-training smaller models with S^2 can match or even exceed the advantage of larger models. We release a Python package that can apply S^2 on any vision model with one line of code: https://github.com/bfshi/scaling_on_scales.

Quando Non Abbiamo Bisogno di Modelli Visivi Più Grandi?

When Do We Not Need Larger Vision Models?

Abstract

Support