Масштабирование предварительного обучения моделей зрения до разрешения 4K

Аннотация

Высокое разрешение восприятия визуальных деталей имеет решающее значение для повседневных задач. Однако текущее предобучение моделей зрения по-прежнему ограничено низкими разрешениями (например, 378 x 378 пикселей) из-за квадратичной стоимости обработки изображений большего размера. Мы представляем PS3, который масштабирует предобучение зрения в стиле CLIP до разрешения 4K с почти постоянной стоимостью. Вместо контрастивного обучения на глобальном представлении изображения, PS3 предобучается путем выборочной обработки локальных областей и их сопоставления с локальными детализированными описаниями, что позволяет изучать представления с высоким разрешением при значительно сниженных вычислительных затратах. Предобученная модель PS3 способна как кодировать глобальное изображение в низком разрешении, так и выборочно обрабатывать локальные области с высоким разрешением на основе их значимости или релевантности текстовому запросу. При применении PS3 к мультимодальным большим языковым моделям (MLLM), результирующая модель, названная VILA-HD, значительно улучшает восприятие визуальных данных с высоким разрешением по сравнению с базовыми моделями, такими как AnyRes и S^2, которые не используют предобучение с высоким разрешением, при этом используя до 4,3 раза меньше токенов. PS3 также раскрывает привлекательные свойства масштабирования VILA-HD, включая бесплатное увеличение разрешения и масштабирование вычислительных ресурсов во время тестирования для повышения производительности. По сравнению с современными решениями, VILA-HD превосходит предыдущие MLLM, такие как NVILA и Qwen2-VL, на множестве бенчмарков и демонстрирует лучшую эффективность, чем последние подходы к сокращению токенов. Наконец, мы обнаруживаем, что текущие бенчмарки не требуют восприятия с разрешением 4K, что побудило нас предложить 4KPro — новый бенчмарк для вопросно-ответных задач на изображениях с разрешением 4K, на котором VILA-HD превосходит все предыдущие MLLM, включая улучшение на 14,5% по сравнению с GPT-4o, а также улучшение на 3,2% и ускорение в 2,96 раза по сравнению с Qwen2-VL.

English

High-resolution perception of visual details is crucial for daily tasks. Current vision pre-training, however, is still limited to low resolutions (e.g., 378 x 378 pixels) due to the quadratic cost of processing larger images. We introduce PS3 that scales CLIP-style vision pre-training to 4K resolution with a near-constant cost. Instead of contrastive learning on global image representation, PS3 is pre-trained by selectively processing local regions and contrasting them with local detailed captions, enabling high-resolution representation learning with greatly reduced computational overhead. The pre-trained PS3 is able to both encode the global image at low resolution and selectively process local high-resolution regions based on their saliency or relevance to a text prompt. When applying PS3 to multi-modal LLM (MLLM), the resulting model, named VILA-HD, significantly improves high-resolution visual perception compared to baselines without high-resolution vision pre-training such as AnyRes and S^2 while using up to 4.3x fewer tokens. PS3 also unlocks appealing scaling properties of VILA-HD, including scaling up resolution for free and scaling up test-time compute for better performance. Compared to state of the arts, VILA-HD outperforms previous MLLMs such as NVILA and Qwen2-VL across multiple benchmarks and achieves better efficiency than latest token pruning approaches. Finally, we find current benchmarks do not require 4K-resolution perception, which motivates us to propose 4KPro, a new benchmark of image QA at 4K resolution, on which VILA-HD outperforms all previous MLLMs, including a 14.5% improvement over GPT-4o, and a 3.2% improvement and 2.96x speedup over Qwen2-VL.

Масштабирование предварительного обучения моделей зрения до разрешения 4K

Scaling Vision Pre-Training to 4K Resolution

Аннотация

Support