Escalando el Preentrenamiento de Visión a Resolución 4K

Resumen

La percepción de alta resolución de detalles visuales es crucial para las tareas diarias. Sin embargo, el pre-entrenamiento visual actual todavía está limitado a bajas resoluciones (por ejemplo, 378 x 378 píxeles) debido al costo cuadrático de procesar imágenes más grandes. Presentamos PS3, que escala el pre-entrenamiento visual al estilo CLIP a una resolución 4K con un costo casi constante. En lugar de aprendizaje contrastivo en la representación global de la imagen, PS3 se pre-entrena procesando selectivamente regiones locales y contrastándolas con descripciones detalladas locales, permitiendo el aprendizaje de representaciones de alta resolución con un costo computacional significativamente reducido. El modelo pre-entrenado PS3 es capaz tanto de codificar la imagen global en baja resolución como de procesar selectivamente regiones locales de alta resolución basándose en su relevancia o prominencia respecto a un texto de entrada. Al aplicar PS3 a un modelo de lenguaje multimodal (MLLM), el modelo resultante, denominado VILA-HD, mejora significativamente la percepción visual de alta resolución en comparación con líneas base sin pre-entrenamiento visual de alta resolución, como AnyRes y S^2, mientras utiliza hasta 4.3 veces menos tokens. PS3 también desbloquea propiedades de escalabilidad atractivas en VILA-HD, incluyendo la escalabilidad gratuita de la resolución y la escalabilidad del cómputo en tiempo de prueba para un mejor rendimiento. En comparación con los modelos más avanzados, VILA-HD supera a MLLMs anteriores como NVILA y Qwen2-VL en múltiples benchmarks y logra una mejor eficiencia que los últimos enfoques de poda de tokens. Finalmente, observamos que los benchmarks actuales no requieren percepción a resolución 4K, lo que nos motiva a proponer 4KPro, un nuevo benchmark de preguntas y respuestas sobre imágenes a resolución 4K, en el cual VILA-HD supera a todos los MLLMs anteriores, incluyendo una mejora del 14.5% sobre GPT-4o y una mejora del 3.2% con una aceleración de 2.96x sobre Qwen2-VL.

English

High-resolution perception of visual details is crucial for daily tasks. Current vision pre-training, however, is still limited to low resolutions (e.g., 378 x 378 pixels) due to the quadratic cost of processing larger images. We introduce PS3 that scales CLIP-style vision pre-training to 4K resolution with a near-constant cost. Instead of contrastive learning on global image representation, PS3 is pre-trained by selectively processing local regions and contrasting them with local detailed captions, enabling high-resolution representation learning with greatly reduced computational overhead. The pre-trained PS3 is able to both encode the global image at low resolution and selectively process local high-resolution regions based on their saliency or relevance to a text prompt. When applying PS3 to multi-modal LLM (MLLM), the resulting model, named VILA-HD, significantly improves high-resolution visual perception compared to baselines without high-resolution vision pre-training such as AnyRes and S^2 while using up to 4.3x fewer tokens. PS3 also unlocks appealing scaling properties of VILA-HD, including scaling up resolution for free and scaling up test-time compute for better performance. Compared to state of the arts, VILA-HD outperforms previous MLLMs such as NVILA and Qwen2-VL across multiple benchmarks and achieves better efficiency than latest token pruning approaches. Finally, we find current benchmarks do not require 4K-resolution perception, which motivates us to propose 4KPro, a new benchmark of image QA at 4K resolution, on which VILA-HD outperforms all previous MLLMs, including a 14.5% improvement over GPT-4o, and a 3.2% improvement and 2.96x speedup over Qwen2-VL.

Escalando el Preentrenamiento de Visión a Resolución 4K

Scaling Vision Pre-Training to 4K Resolution

Resumen

Support