Escalonamento de Pré-Treinamento de Visão para Resolução 4K
Scaling Vision Pre-Training to 4K Resolution
March 25, 2025
Autores: Baifeng Shi, Boyi Li, Han Cai, Yao Lu, Sifei Liu, Marco Pavone, Jan Kautz, Song Han, Trevor Darrell, Pavlo Molchanov, Hongxu Yin
cs.AI
Resumo
A percepção de alta resolução de detalhes visuais é crucial para tarefas diárias. No entanto, o pré-treinamento de visão atual ainda é limitado a baixas resoluções (por exemplo, 378 x 378 pixels) devido ao custo quadrático de processar imagens maiores. Apresentamos o PS3, que escala o pré-treinamento de visão no estilo CLIP para resolução 4K com um custo quase constante. Em vez de aprendizagem contrastiva na representação global da imagem, o PS3 é pré-treinado processando seletivamente regiões locais e contrastando-as com legendas detalhadas locais, permitindo o aprendizado de representação de alta resolução com uma redução significativa do custo computacional. O PS3 pré-treinado é capaz tanto de codificar a imagem global em baixa resolução quanto de processar seletivamente regiões locais de alta resolução com base em sua saliência ou relevância para um prompt de texto. Ao aplicar o PS3 a um LLM multimodal (MLLM), o modelo resultante, denominado VILA-HD, melhora significativamente a percepção visual de alta resolução em comparação com baselines sem pré-treinamento de visão de alta resolução, como AnyRes e S^2, enquanto utiliza até 4,3 vezes menos tokens. O PS3 também desbloqueia propriedades de escalabilidade atraentes do VILA-HD, incluindo a escalonamento de resolução sem custo adicional e o aumento do tempo de computação para melhor desempenho. Em comparação com o estado da arte, o VILA-HD supera MLLMs anteriores, como NVILA e Qwen2-VL, em vários benchmarks e alcança melhor eficiência do que as abordagens mais recentes de poda de tokens. Por fim, descobrimos que os benchmarks atuais não exigem percepção de resolução 4K, o que nos motiva a propor o 4KPro, um novo benchmark de Q&A de imagem em resolução 4K, no qual o VILA-HD supera todos os MLLMs anteriores, incluindo uma melhoria de 14,5% em relação ao GPT-4o e uma melhoria de 3,2% com um aumento de velocidade de 2,96x em relação ao Qwen2-VL.
English
High-resolution perception of visual details is crucial for daily tasks.
Current vision pre-training, however, is still limited to low resolutions
(e.g., 378 x 378 pixels) due to the quadratic cost of processing larger images.
We introduce PS3 that scales CLIP-style vision pre-training to 4K resolution
with a near-constant cost. Instead of contrastive learning on global image
representation, PS3 is pre-trained by selectively processing local regions and
contrasting them with local detailed captions, enabling high-resolution
representation learning with greatly reduced computational overhead. The
pre-trained PS3 is able to both encode the global image at low resolution and
selectively process local high-resolution regions based on their saliency or
relevance to a text prompt. When applying PS3 to multi-modal LLM (MLLM), the
resulting model, named VILA-HD, significantly improves high-resolution visual
perception compared to baselines without high-resolution vision pre-training
such as AnyRes and S^2 while using up to 4.3x fewer tokens. PS3 also unlocks
appealing scaling properties of VILA-HD, including scaling up resolution for
free and scaling up test-time compute for better performance. Compared to state
of the arts, VILA-HD outperforms previous MLLMs such as NVILA and Qwen2-VL
across multiple benchmarks and achieves better efficiency than latest token
pruning approaches. Finally, we find current benchmarks do not require
4K-resolution perception, which motivates us to propose 4KPro, a new benchmark
of image QA at 4K resolution, on which VILA-HD outperforms all previous MLLMs,
including a 14.5% improvement over GPT-4o, and a 3.2% improvement and 2.96x
speedup over Qwen2-VL.Summary
AI-Generated Summary