ChatPaper.aiChatPaper

Масштабирование предварительного обучения моделей зрения до разрешения 4K

Scaling Vision Pre-Training to 4K Resolution

March 25, 2025
Авторы: Baifeng Shi, Boyi Li, Han Cai, Yao Lu, Sifei Liu, Marco Pavone, Jan Kautz, Song Han, Trevor Darrell, Pavlo Molchanov, Hongxu Yin
cs.AI

Аннотация

Высокое разрешение восприятия визуальных деталей имеет решающее значение для повседневных задач. Однако текущее предобучение моделей зрения по-прежнему ограничено низкими разрешениями (например, 378 x 378 пикселей) из-за квадратичной стоимости обработки изображений большего размера. Мы представляем PS3, который масштабирует предобучение зрения в стиле CLIP до разрешения 4K с почти постоянной стоимостью. Вместо контрастивного обучения на глобальном представлении изображения, PS3 предобучается путем выборочной обработки локальных областей и их сопоставления с локальными детализированными описаниями, что позволяет изучать представления с высоким разрешением при значительно сниженных вычислительных затратах. Предобученная модель PS3 способна как кодировать глобальное изображение в низком разрешении, так и выборочно обрабатывать локальные области с высоким разрешением на основе их значимости или релевантности текстовому запросу. При применении PS3 к мультимодальным большим языковым моделям (MLLM), результирующая модель, названная VILA-HD, значительно улучшает восприятие визуальных данных с высоким разрешением по сравнению с базовыми моделями, такими как AnyRes и S^2, которые не используют предобучение с высоким разрешением, при этом используя до 4,3 раза меньше токенов. PS3 также раскрывает привлекательные свойства масштабирования VILA-HD, включая бесплатное увеличение разрешения и масштабирование вычислительных ресурсов во время тестирования для повышения производительности. По сравнению с современными решениями, VILA-HD превосходит предыдущие MLLM, такие как NVILA и Qwen2-VL, на множестве бенчмарков и демонстрирует лучшую эффективность, чем последние подходы к сокращению токенов. Наконец, мы обнаруживаем, что текущие бенчмарки не требуют восприятия с разрешением 4K, что побудило нас предложить 4KPro — новый бенчмарк для вопросно-ответных задач на изображениях с разрешением 4K, на котором VILA-HD превосходит все предыдущие MLLM, включая улучшение на 14,5% по сравнению с GPT-4o, а также улучшение на 3,2% и ускорение в 2,96 раза по сравнению с Qwen2-VL.
English
High-resolution perception of visual details is crucial for daily tasks. Current vision pre-training, however, is still limited to low resolutions (e.g., 378 x 378 pixels) due to the quadratic cost of processing larger images. We introduce PS3 that scales CLIP-style vision pre-training to 4K resolution with a near-constant cost. Instead of contrastive learning on global image representation, PS3 is pre-trained by selectively processing local regions and contrasting them with local detailed captions, enabling high-resolution representation learning with greatly reduced computational overhead. The pre-trained PS3 is able to both encode the global image at low resolution and selectively process local high-resolution regions based on their saliency or relevance to a text prompt. When applying PS3 to multi-modal LLM (MLLM), the resulting model, named VILA-HD, significantly improves high-resolution visual perception compared to baselines without high-resolution vision pre-training such as AnyRes and S^2 while using up to 4.3x fewer tokens. PS3 also unlocks appealing scaling properties of VILA-HD, including scaling up resolution for free and scaling up test-time compute for better performance. Compared to state of the arts, VILA-HD outperforms previous MLLMs such as NVILA and Qwen2-VL across multiple benchmarks and achieves better efficiency than latest token pruning approaches. Finally, we find current benchmarks do not require 4K-resolution perception, which motivates us to propose 4KPro, a new benchmark of image QA at 4K resolution, on which VILA-HD outperforms all previous MLLMs, including a 14.5% improvement over GPT-4o, and a 3.2% improvement and 2.96x speedup over Qwen2-VL.

Summary

AI-Generated Summary

PDF402March 26, 2025