Quando Não Precisamos de Modelos de Visão Maiores?
When Do We Not Need Larger Vision Models?
March 19, 2024
Autores: Baifeng Shi, Ziyang Wu, Maolin Mao, Xin Wang, Trevor Darrell
cs.AI
Resumo
Aumentar o tamanho dos modelos de visão tem sido o padrão de fato para obter representações visuais mais poderosas. Neste trabalho, discutimos o ponto além do qual modelos de visão maiores não são necessários. Primeiro, demonstramos o poder do Escalonamento em Escalas (S^2), no qual um modelo de visão menor pré-treinado e congelado (por exemplo, ViT-B ou ViT-L), executado em múltiplas escalas de imagem, pode superar modelos maiores (por exemplo, ViT-H ou ViT-G) em tarefas de classificação, segmentação, estimativa de profundidade, benchmarks de Modelos de Linguagem Multimodal (MLLM) e manipulação robótica. Notavelmente, o S^2 alcança desempenho de ponta na compreensão detalhada de MLLM no benchmark V*, superando modelos como o GPT-4V. Examinamos as condições sob as quais o S^2 é uma abordagem de escalonamento preferível em comparação com o aumento do tamanho do modelo. Embora modelos maiores tenham a vantagem de melhor generalização em exemplos difíceis, mostramos que as características de modelos de visão maiores podem ser bem aproximadas por modelos menores em múltiplas escalas. Isso sugere que a maioria, senão todas, das representações aprendidas pelos grandes modelos pré-treinados atuais também podem ser obtidas a partir de modelos menores em múltiplas escalas. Nossos resultados mostram que um modelo menor em múltiplas escalas tem capacidade de aprendizado comparável a um modelo maior, e o pré-treinamento de modelos menores com S^2 pode igualar ou até superar a vantagem de modelos maiores. Lançamos um pacote Python que pode aplicar o S^2 em qualquer modelo de visão com uma única linha de código: https://github.com/bfshi/scaling_on_scales.
English
Scaling up the size of vision models has been the de facto standard to obtain
more powerful visual representations. In this work, we discuss the point beyond
which larger vision models are not necessary. First, we demonstrate the power
of Scaling on Scales (S^2), whereby a pre-trained and frozen smaller vision
model (e.g., ViT-B or ViT-L), run over multiple image scales, can outperform
larger models (e.g., ViT-H or ViT-G) on classification, segmentation, depth
estimation, Multimodal LLM (MLLM) benchmarks, and robotic manipulation.
Notably, S^2 achieves state-of-the-art performance in detailed understanding
of MLLM on the V* benchmark, surpassing models such as GPT-4V. We examine the
conditions under which S^2 is a preferred scaling approach compared to
scaling on model size. While larger models have the advantage of better
generalization on hard examples, we show that features of larger vision models
can be well approximated by those of multi-scale smaller models. This suggests
most, if not all, of the representations learned by current large pre-trained
models can also be obtained from multi-scale smaller models. Our results show
that a multi-scale smaller model has comparable learning capacity to a larger
model, and pre-training smaller models with S^2 can match or even exceed the
advantage of larger models. We release a Python package that can apply S^2 on
any vision model with one line of code:
https://github.com/bfshi/scaling_on_scales.