ChatPaper.aiChatPaper

¿Cuándo No Necesitamos Modelos de Visión Más Grandes?

When Do We Not Need Larger Vision Models?

March 19, 2024
Autores: Baifeng Shi, Ziyang Wu, Maolin Mao, Xin Wang, Trevor Darrell
cs.AI

Resumen

El aumento del tamaño de los modelos de visión ha sido el estándar de facto para obtener representaciones visuales más potentes. En este trabajo, discutimos el punto más allá del cual los modelos de visión más grandes no son necesarios. Primero, demostramos el poder de Escalado en Escalas (S^2), mediante el cual un modelo de visión más pequeño preentrenado y congelado (por ejemplo, ViT-B o ViT-L), ejecutado en múltiples escalas de imagen, puede superar a modelos más grandes (por ejemplo, ViT-H o ViT-G) en clasificación, segmentación, estimación de profundidad, benchmarks de MLLM (Modelos de Lenguaje Multimodal) y manipulación robótica. Notablemente, S^2 logra un rendimiento de vanguardia en la comprensión detallada de MLLM en el benchmark V*, superando a modelos como GPT-4V. Examinamos las condiciones bajo las cuales S^2 es un enfoque de escalado preferido en comparación con el escalado en tamaño de modelo. Si bien los modelos más grandes tienen la ventaja de una mejor generalización en ejemplos difíciles, mostramos que las características de los modelos de visión más grandes pueden ser bien aproximadas por las de modelos más pequeños multi-escala. Esto sugiere que la mayoría, si no todas, de las representaciones aprendidas por los modelos grandes preentrenados actuales también pueden obtenerse de modelos más pequeños multi-escala. Nuestros resultados muestran que un modelo más pequeño multi-escala tiene una capacidad de aprendizaje comparable a un modelo más grande, y que el preentrenamiento de modelos más pequeños con S^2 puede igualar o incluso superar la ventaja de los modelos más grandes. Lanzamos un paquete de Python que puede aplicar S^2 en cualquier modelo de visión con una sola línea de código: https://github.com/bfshi/scaling_on_scales.
English
Scaling up the size of vision models has been the de facto standard to obtain more powerful visual representations. In this work, we discuss the point beyond which larger vision models are not necessary. First, we demonstrate the power of Scaling on Scales (S^2), whereby a pre-trained and frozen smaller vision model (e.g., ViT-B or ViT-L), run over multiple image scales, can outperform larger models (e.g., ViT-H or ViT-G) on classification, segmentation, depth estimation, Multimodal LLM (MLLM) benchmarks, and robotic manipulation. Notably, S^2 achieves state-of-the-art performance in detailed understanding of MLLM on the V* benchmark, surpassing models such as GPT-4V. We examine the conditions under which S^2 is a preferred scaling approach compared to scaling on model size. While larger models have the advantage of better generalization on hard examples, we show that features of larger vision models can be well approximated by those of multi-scale smaller models. This suggests most, if not all, of the representations learned by current large pre-trained models can also be obtained from multi-scale smaller models. Our results show that a multi-scale smaller model has comparable learning capacity to a larger model, and pre-training smaller models with S^2 can match or even exceed the advantage of larger models. We release a Python package that can apply S^2 on any vision model with one line of code: https://github.com/bfshi/scaling_on_scales.

Summary

AI-Generated Summary

PDF262December 15, 2024