Mise à l'échelle de la pré-formation visuelle à une résolution 4K

papers.abstract

La perception haute résolution des détails visuels est cruciale pour les tâches quotidiennes. Cependant, le pré-entraînement visuel actuel reste limité à des résolutions basses (par exemple, 378 x 378 pixels) en raison du coût quadratique du traitement d'images plus grandes. Nous introduisons PS3, qui étend le pré-entraînement visuel de type CLIP à une résolution 4K avec un coût quasi constant. Au lieu d'un apprentissage contrastif sur la représentation globale de l'image, PS3 est pré-entraîné en traitant sélectivement des régions locales et en les contrastant avec des descriptions détaillées locales, permettant ainsi un apprentissage de représentation haute résolution avec une réduction significative de la surcharge computationnelle. Le modèle pré-entraîné PS3 est capable à la fois d'encoder l'image globale en basse résolution et de traiter sélectivement des régions locales en haute résolution en fonction de leur saillance ou de leur pertinence par rapport à une invite textuelle. Lorsque PS3 est appliqué à un modèle de langage multimodal (MLLM), le modèle résultant, nommé VILA-HD, améliore significativement la perception visuelle haute résolution par rapport aux modèles de référence sans pré-entraînement visuel haute résolution, tels que AnyRes et S^2, tout en utilisant jusqu'à 4,3 fois moins de tokens. PS3 débloque également des propriétés d'échelle attrayantes pour VILA-HD, notamment la possibilité d'augmenter la résolution sans coût supplémentaire et d'augmenter le calcul au moment du test pour de meilleures performances. Par rapport à l'état de l'art, VILA-HD surpasse les MLLM précédents tels que NVILA et Qwen2-VL sur plusieurs benchmarks et offre une meilleure efficacité que les dernières approches d'élagage de tokens. Enfin, nous constatons que les benchmarks actuels ne nécessitent pas une perception en 4K, ce qui nous motive à proposer 4KPro, un nouveau benchmark de questions-réponses sur images en 4K, sur lequel VILA-HD surpasse tous les MLLM précédents, y compris une amélioration de 14,5 % par rapport à GPT-4o, et une amélioration de 3,2 % ainsi qu'une accélération de 2,96 fois par rapport à Qwen2-VL.

English

High-resolution perception of visual details is crucial for daily tasks. Current vision pre-training, however, is still limited to low resolutions (e.g., 378 x 378 pixels) due to the quadratic cost of processing larger images. We introduce PS3 that scales CLIP-style vision pre-training to 4K resolution with a near-constant cost. Instead of contrastive learning on global image representation, PS3 is pre-trained by selectively processing local regions and contrasting them with local detailed captions, enabling high-resolution representation learning with greatly reduced computational overhead. The pre-trained PS3 is able to both encode the global image at low resolution and selectively process local high-resolution regions based on their saliency or relevance to a text prompt. When applying PS3 to multi-modal LLM (MLLM), the resulting model, named VILA-HD, significantly improves high-resolution visual perception compared to baselines without high-resolution vision pre-training such as AnyRes and S^2 while using up to 4.3x fewer tokens. PS3 also unlocks appealing scaling properties of VILA-HD, including scaling up resolution for free and scaling up test-time compute for better performance. Compared to state of the arts, VILA-HD outperforms previous MLLMs such as NVILA and Qwen2-VL across multiple benchmarks and achieves better efficiency than latest token pruning approaches. Finally, we find current benchmarks do not require 4K-resolution perception, which motivates us to propose 4KPro, a new benchmark of image QA at 4K resolution, on which VILA-HD outperforms all previous MLLMs, including a 14.5% improvement over GPT-4o, and a 3.2% improvement and 2.96x speedup over Qwen2-VL.

Mise à l'échelle de la pré-formation visuelle à une résolution 4K

Scaling Vision Pre-Training to 4K Resolution

papers.abstract

Support