ChatPaper.aiChatPaper

4K 해상도로 비전 사전 학습 확장하기

Scaling Vision Pre-Training to 4K Resolution

March 25, 2025
저자: Baifeng Shi, Boyi Li, Han Cai, Yao Lu, Sifei Liu, Marco Pavone, Jan Kautz, Song Han, Trevor Darrell, Pavlo Molchanov, Hongxu Yin
cs.AI

초록

고해상도 시각적 세부 사항 인식은 일상 작업에 있어 매우 중요합니다. 그러나 현재의 시각 사전 훈련은 더 큰 이미지를 처리하는 데 드는 이차 비용으로 인해 여전히 낮은 해상도(예: 378 x 378 픽셀)로 제한됩니다. 우리는 PS3를 소개하며, 이는 CLIP 스타일의 시각 사전 훈련을 4K 해상도로 확장하면서 거의 일정한 비용을 유지합니다. 전역 이미지 표현에 대한 대조 학습 대신, PS3는 지역 영역을 선택적으로 처리하고 이를 지역 세부 캡션과 대조함으로써 사전 훈련되며, 이는 계산 오버헤드를 크게 줄이면서 고해상도 표현 학습을 가능하게 합니다. 사전 훈련된 PS3는 낮은 해상도에서 전역 이미지를 인코딩할 수 있을 뿐만 아니라, 텍스트 프롬프트와의 관련성이나 중요도에 따라 지역 고해상도 영역을 선택적으로 처리할 수 있습니다. PS3를 다중 모드 LLM(MLLM)에 적용할 때, 결과 모델인 VILA-HD는 AnyRes 및 S^2와 같은 고해상도 시각 사전 훈련이 없는 기준선에 비해 고해상도 시각적 인식을 크게 개선하며, 최대 4.3배 적은 토큰을 사용합니다. PS3는 또한 VILA-HD의 매력적인 확장 특성을 해제하며, 이에는 무료로 해상도를 확장하고 더 나은 성능을 위해 테스트 시간 계산을 확장하는 것이 포함됩니다. 최신 기술과 비교할 때, VILA-HD는 NVILA 및 Qwen2-VL과 같은 이전 MLLM을 여러 벤치마크에서 능가하며, 최신 토큰 프루닝 접근 방식보다 더 나은 효율성을 달성합니다. 마지막으로, 우리는 현재 벤치마크가 4K 해상도 인식을 요구하지 않는다는 것을 발견했으며, 이는 4K 해상도에서의 이미지 QA를 위한 새로운 벤치마크인 4KPro를 제안하게 되었습니다. VILA-HD는 이 벤치마크에서 모든 이전 MLLM을 능가하며, GPT-4o에 비해 14.5%의 개선과 Qwen2-VL에 비해 3.2%의 개선 및 2.96배의 속도 향상을 달성했습니다.
English
High-resolution perception of visual details is crucial for daily tasks. Current vision pre-training, however, is still limited to low resolutions (e.g., 378 x 378 pixels) due to the quadratic cost of processing larger images. We introduce PS3 that scales CLIP-style vision pre-training to 4K resolution with a near-constant cost. Instead of contrastive learning on global image representation, PS3 is pre-trained by selectively processing local regions and contrasting them with local detailed captions, enabling high-resolution representation learning with greatly reduced computational overhead. The pre-trained PS3 is able to both encode the global image at low resolution and selectively process local high-resolution regions based on their saliency or relevance to a text prompt. When applying PS3 to multi-modal LLM (MLLM), the resulting model, named VILA-HD, significantly improves high-resolution visual perception compared to baselines without high-resolution vision pre-training such as AnyRes and S^2 while using up to 4.3x fewer tokens. PS3 also unlocks appealing scaling properties of VILA-HD, including scaling up resolution for free and scaling up test-time compute for better performance. Compared to state of the arts, VILA-HD outperforms previous MLLMs such as NVILA and Qwen2-VL across multiple benchmarks and achieves better efficiency than latest token pruning approaches. Finally, we find current benchmarks do not require 4K-resolution perception, which motivates us to propose 4KPro, a new benchmark of image QA at 4K resolution, on which VILA-HD outperforms all previous MLLMs, including a 14.5% improvement over GPT-4o, and a 3.2% improvement and 2.96x speedup over Qwen2-VL.

Summary

AI-Generated Summary

PDF402March 26, 2025