Escalando el Preentrenamiento de Visión a Resolución 4K
Scaling Vision Pre-Training to 4K Resolution
March 25, 2025
Autores: Baifeng Shi, Boyi Li, Han Cai, Yao Lu, Sifei Liu, Marco Pavone, Jan Kautz, Song Han, Trevor Darrell, Pavlo Molchanov, Hongxu Yin
cs.AI
Resumen
La percepción de alta resolución de detalles visuales es crucial para las tareas diarias. Sin embargo, el pre-entrenamiento visual actual todavía está limitado a bajas resoluciones (por ejemplo, 378 x 378 píxeles) debido al costo cuadrático de procesar imágenes más grandes. Presentamos PS3, que escala el pre-entrenamiento visual al estilo CLIP a una resolución 4K con un costo casi constante. En lugar de aprendizaje contrastivo en la representación global de la imagen, PS3 se pre-entrena procesando selectivamente regiones locales y contrastándolas con descripciones detalladas locales, permitiendo el aprendizaje de representaciones de alta resolución con un costo computacional significativamente reducido. El modelo pre-entrenado PS3 es capaz tanto de codificar la imagen global en baja resolución como de procesar selectivamente regiones locales de alta resolución basándose en su relevancia o prominencia respecto a un texto de entrada. Al aplicar PS3 a un modelo de lenguaje multimodal (MLLM), el modelo resultante, denominado VILA-HD, mejora significativamente la percepción visual de alta resolución en comparación con líneas base sin pre-entrenamiento visual de alta resolución, como AnyRes y S^2, mientras utiliza hasta 4.3 veces menos tokens. PS3 también desbloquea propiedades de escalabilidad atractivas en VILA-HD, incluyendo la escalabilidad gratuita de la resolución y la escalabilidad del cómputo en tiempo de prueba para un mejor rendimiento. En comparación con los modelos más avanzados, VILA-HD supera a MLLMs anteriores como NVILA y Qwen2-VL en múltiples benchmarks y logra una mejor eficiencia que los últimos enfoques de poda de tokens. Finalmente, observamos que los benchmarks actuales no requieren percepción a resolución 4K, lo que nos motiva a proponer 4KPro, un nuevo benchmark de preguntas y respuestas sobre imágenes a resolución 4K, en el cual VILA-HD supera a todos los MLLMs anteriores, incluyendo una mejora del 14.5% sobre GPT-4o y una mejora del 3.2% con una aceleración de 2.96x sobre Qwen2-VL.
English
High-resolution perception of visual details is crucial for daily tasks.
Current vision pre-training, however, is still limited to low resolutions
(e.g., 378 x 378 pixels) due to the quadratic cost of processing larger images.
We introduce PS3 that scales CLIP-style vision pre-training to 4K resolution
with a near-constant cost. Instead of contrastive learning on global image
representation, PS3 is pre-trained by selectively processing local regions and
contrasting them with local detailed captions, enabling high-resolution
representation learning with greatly reduced computational overhead. The
pre-trained PS3 is able to both encode the global image at low resolution and
selectively process local high-resolution regions based on their saliency or
relevance to a text prompt. When applying PS3 to multi-modal LLM (MLLM), the
resulting model, named VILA-HD, significantly improves high-resolution visual
perception compared to baselines without high-resolution vision pre-training
such as AnyRes and S^2 while using up to 4.3x fewer tokens. PS3 also unlocks
appealing scaling properties of VILA-HD, including scaling up resolution for
free and scaling up test-time compute for better performance. Compared to state
of the arts, VILA-HD outperforms previous MLLMs such as NVILA and Qwen2-VL
across multiple benchmarks and achieves better efficiency than latest token
pruning approaches. Finally, we find current benchmarks do not require
4K-resolution perception, which motivates us to propose 4KPro, a new benchmark
of image QA at 4K resolution, on which VILA-HD outperforms all previous MLLMs,
including a 14.5% improvement over GPT-4o, and a 3.2% improvement and 2.96x
speedup over Qwen2-VL.Summary
AI-Generated Summary