Het schalen van visuele voorafgaande training naar 4K-resolutie
Scaling Vision Pre-Training to 4K Resolution
March 25, 2025
Auteurs: Baifeng Shi, Boyi Li, Han Cai, Yao Lu, Sifei Liu, Marco Pavone, Jan Kautz, Song Han, Trevor Darrell, Pavlo Molchanov, Hongxu Yin
cs.AI
Samenvatting
Het waarnemen van visuele details met hoge resolutie is cruciaal voor dagelijkse taken. Huidige visuele voorafgaande training is echter nog steeds beperkt tot lage resoluties (bijv. 378 x 378 pixels) vanwege de kwadratische kosten van het verwerken van grotere afbeeldingen. Wij introduceren PS3, dat CLIP-stijl visuele voorafgaande training opschaalt naar 4K-resolutie met een bijna constante kost. In plaats van contrastief leren op globale beeldrepresentatie, wordt PS3 vooraf getraind door selectief lokale regio's te verwerken en deze te contrasteren met gedetailleerde lokale bijschriften, waardoor het leren van representaties met hoge resolutie mogelijk wordt met sterk verminderde rekenkosten. Het vooraf getrainde PS3 kan zowel het globale beeld op lage resolutie coderen als selectief lokale regio's met hoge resolutie verwerken op basis van hun opvallendheid of relevantie voor een tekstprompt. Wanneer PS3 wordt toegepast op multi-modale LLM (MLLM), verbetert het resulterende model, genaamd VILA-HD, de visuele waarneming met hoge resolutie aanzienlijk in vergelijking met baseline-modellen zonder voorafgaande training op hoge resolutie, zoals AnyRes en S^2, terwijl het tot 4,3x minder tokens gebruikt. PS3 ontgrendelt ook aantrekkelijke schaaleigenschappen van VILA-HD, waaronder het gratis opschalen van de resolutie en het opschalen van de rekentijd tijdens tests voor betere prestaties. In vergelijking met de state-of-the-art presteert VILA-HD beter dan eerdere MLLM's zoals NVILA en Qwen2-VL op meerdere benchmarks en behaalt het een betere efficiëntie dan de nieuwste token-pruning benaderingen. Tot slot constateren we dat huidige benchmarks geen waarneming op 4K-resolutie vereisen, wat ons motiveert om 4KPro voor te stellen, een nieuwe benchmark voor beeldvragen op 4K-resolutie, waarop VILA-HD alle vorige MLLM's overtreft, inclusief een verbetering van 14,5% ten opzichte van GPT-4o, en een verbetering van 3,2% en een versnelling van 2,96x ten opzichte van Qwen2-VL.
English
High-resolution perception of visual details is crucial for daily tasks.
Current vision pre-training, however, is still limited to low resolutions
(e.g., 378 x 378 pixels) due to the quadratic cost of processing larger images.
We introduce PS3 that scales CLIP-style vision pre-training to 4K resolution
with a near-constant cost. Instead of contrastive learning on global image
representation, PS3 is pre-trained by selectively processing local regions and
contrasting them with local detailed captions, enabling high-resolution
representation learning with greatly reduced computational overhead. The
pre-trained PS3 is able to both encode the global image at low resolution and
selectively process local high-resolution regions based on their saliency or
relevance to a text prompt. When applying PS3 to multi-modal LLM (MLLM), the
resulting model, named VILA-HD, significantly improves high-resolution visual
perception compared to baselines without high-resolution vision pre-training
such as AnyRes and S^2 while using up to 4.3x fewer tokens. PS3 also unlocks
appealing scaling properties of VILA-HD, including scaling up resolution for
free and scaling up test-time compute for better performance. Compared to state
of the arts, VILA-HD outperforms previous MLLMs such as NVILA and Qwen2-VL
across multiple benchmarks and achieves better efficiency than latest token
pruning approaches. Finally, we find current benchmarks do not require
4K-resolution perception, which motivates us to propose 4KPro, a new benchmark
of image QA at 4K resolution, on which VILA-HD outperforms all previous MLLMs,
including a 14.5% improvement over GPT-4o, and a 3.2% improvement and 2.96x
speedup over Qwen2-VL.Summary
AI-Generated Summary