Масштабирование предварительного обучения моделей зрения до разрешения 4K
Scaling Vision Pre-Training to 4K Resolution
March 25, 2025
Авторы: Baifeng Shi, Boyi Li, Han Cai, Yao Lu, Sifei Liu, Marco Pavone, Jan Kautz, Song Han, Trevor Darrell, Pavlo Molchanov, Hongxu Yin
cs.AI
Аннотация
Высокое разрешение восприятия визуальных деталей имеет решающее значение для повседневных задач. Однако текущее предобучение моделей зрения по-прежнему ограничено низкими разрешениями (например, 378 x 378 пикселей) из-за квадратичной стоимости обработки изображений большего размера. Мы представляем PS3, который масштабирует предобучение зрения в стиле CLIP до разрешения 4K с почти постоянной стоимостью. Вместо контрастивного обучения на глобальном представлении изображения, PS3 предобучается путем выборочной обработки локальных областей и их сопоставления с локальными детализированными описаниями, что позволяет изучать представления с высоким разрешением при значительно сниженных вычислительных затратах. Предобученная модель PS3 способна как кодировать глобальное изображение в низком разрешении, так и выборочно обрабатывать локальные области с высоким разрешением на основе их значимости или релевантности текстовому запросу. При применении PS3 к мультимодальным большим языковым моделям (MLLM), результирующая модель, названная VILA-HD, значительно улучшает восприятие визуальных данных с высоким разрешением по сравнению с базовыми моделями, такими как AnyRes и S^2, которые не используют предобучение с высоким разрешением, при этом используя до 4,3 раза меньше токенов. PS3 также раскрывает привлекательные свойства масштабирования VILA-HD, включая бесплатное увеличение разрешения и масштабирование вычислительных ресурсов во время тестирования для повышения производительности. По сравнению с современными решениями, VILA-HD превосходит предыдущие MLLM, такие как NVILA и Qwen2-VL, на множестве бенчмарков и демонстрирует лучшую эффективность, чем последние подходы к сокращению токенов. Наконец, мы обнаруживаем, что текущие бенчмарки не требуют восприятия с разрешением 4K, что побудило нас предложить 4KPro — новый бенчмарк для вопросно-ответных задач на изображениях с разрешением 4K, на котором VILA-HD превосходит все предыдущие MLLM, включая улучшение на 14,5% по сравнению с GPT-4o, а также улучшение на 3,2% и ускорение в 2,96 раза по сравнению с Qwen2-VL.
English
High-resolution perception of visual details is crucial for daily tasks.
Current vision pre-training, however, is still limited to low resolutions
(e.g., 378 x 378 pixels) due to the quadratic cost of processing larger images.
We introduce PS3 that scales CLIP-style vision pre-training to 4K resolution
with a near-constant cost. Instead of contrastive learning on global image
representation, PS3 is pre-trained by selectively processing local regions and
contrasting them with local detailed captions, enabling high-resolution
representation learning with greatly reduced computational overhead. The
pre-trained PS3 is able to both encode the global image at low resolution and
selectively process local high-resolution regions based on their saliency or
relevance to a text prompt. When applying PS3 to multi-modal LLM (MLLM), the
resulting model, named VILA-HD, significantly improves high-resolution visual
perception compared to baselines without high-resolution vision pre-training
such as AnyRes and S^2 while using up to 4.3x fewer tokens. PS3 also unlocks
appealing scaling properties of VILA-HD, including scaling up resolution for
free and scaling up test-time compute for better performance. Compared to state
of the arts, VILA-HD outperforms previous MLLMs such as NVILA and Qwen2-VL
across multiple benchmarks and achieves better efficiency than latest token
pruning approaches. Finally, we find current benchmarks do not require
4K-resolution perception, which motivates us to propose 4KPro, a new benchmark
of image QA at 4K resolution, on which VILA-HD outperforms all previous MLLMs,
including a 14.5% improvement over GPT-4o, and a 3.2% improvement and 2.96x
speedup over Qwen2-VL.Summary
AI-Generated Summary