Mise à l'échelle de la pré-formation visuelle à une résolution 4K
Scaling Vision Pre-Training to 4K Resolution
March 25, 2025
Auteurs: Baifeng Shi, Boyi Li, Han Cai, Yao Lu, Sifei Liu, Marco Pavone, Jan Kautz, Song Han, Trevor Darrell, Pavlo Molchanov, Hongxu Yin
cs.AI
Résumé
La perception haute résolution des détails visuels est cruciale pour les tâches quotidiennes. Cependant, le pré-entraînement visuel actuel reste limité à des résolutions basses (par exemple, 378 x 378 pixels) en raison du coût quadratique du traitement d'images plus grandes. Nous introduisons PS3, qui étend le pré-entraînement visuel de type CLIP à une résolution 4K avec un coût quasi constant. Au lieu d'un apprentissage contrastif sur la représentation globale de l'image, PS3 est pré-entraîné en traitant sélectivement des régions locales et en les contrastant avec des descriptions détaillées locales, permettant ainsi un apprentissage de représentation haute résolution avec une réduction significative de la surcharge computationnelle. Le modèle pré-entraîné PS3 est capable à la fois d'encoder l'image globale en basse résolution et de traiter sélectivement des régions locales en haute résolution en fonction de leur saillance ou de leur pertinence par rapport à une invite textuelle. Lorsque PS3 est appliqué à un modèle de langage multimodal (MLLM), le modèle résultant, nommé VILA-HD, améliore significativement la perception visuelle haute résolution par rapport aux modèles de référence sans pré-entraînement visuel haute résolution, tels que AnyRes et S^2, tout en utilisant jusqu'à 4,3 fois moins de tokens. PS3 débloque également des propriétés d'échelle attrayantes pour VILA-HD, notamment la possibilité d'augmenter la résolution sans coût supplémentaire et d'augmenter le calcul au moment du test pour de meilleures performances. Par rapport à l'état de l'art, VILA-HD surpasse les MLLM précédents tels que NVILA et Qwen2-VL sur plusieurs benchmarks et offre une meilleure efficacité que les dernières approches d'élagage de tokens. Enfin, nous constatons que les benchmarks actuels ne nécessitent pas une perception en 4K, ce qui nous motive à proposer 4KPro, un nouveau benchmark de questions-réponses sur images en 4K, sur lequel VILA-HD surpasse tous les MLLM précédents, y compris une amélioration de 14,5 % par rapport à GPT-4o, et une amélioration de 3,2 % ainsi qu'une accélération de 2,96 fois par rapport à Qwen2-VL.
English
High-resolution perception of visual details is crucial for daily tasks.
Current vision pre-training, however, is still limited to low resolutions
(e.g., 378 x 378 pixels) due to the quadratic cost of processing larger images.
We introduce PS3 that scales CLIP-style vision pre-training to 4K resolution
with a near-constant cost. Instead of contrastive learning on global image
representation, PS3 is pre-trained by selectively processing local regions and
contrasting them with local detailed captions, enabling high-resolution
representation learning with greatly reduced computational overhead. The
pre-trained PS3 is able to both encode the global image at low resolution and
selectively process local high-resolution regions based on their saliency or
relevance to a text prompt. When applying PS3 to multi-modal LLM (MLLM), the
resulting model, named VILA-HD, significantly improves high-resolution visual
perception compared to baselines without high-resolution vision pre-training
such as AnyRes and S^2 while using up to 4.3x fewer tokens. PS3 also unlocks
appealing scaling properties of VILA-HD, including scaling up resolution for
free and scaling up test-time compute for better performance. Compared to state
of the arts, VILA-HD outperforms previous MLLMs such as NVILA and Qwen2-VL
across multiple benchmarks and achieves better efficiency than latest token
pruning approaches. Finally, we find current benchmarks do not require
4K-resolution perception, which motivates us to propose 4KPro, a new benchmark
of image QA at 4K resolution, on which VILA-HD outperforms all previous MLLMs,
including a 14.5% improvement over GPT-4o, and a 3.2% improvement and 2.96x
speedup over Qwen2-VL.Summary
AI-Generated Summary