Мультимодальное авторегрессивное предварительное обучение больших видеоэнкодеров
Multimodal Autoregressive Pre-training of Large Vision Encoders
November 21, 2024
Авторы: Enrico Fini, Mustafa Shukor, Xiujun Li, Philipp Dufter, Michal Klein, David Haldimann, Sai Aitharaju, Victor Guilherme Turrisi da Costa, Louis Béthune, Zhe Gan, Alexander T Toshev, Marcin Eichner, Moin Nabi, Yinfei Yang, Joshua M. Susskind, Alaaeldin El-Nouby
cs.AI
Аннотация
Мы представляем новый метод предварительного обучения крупномасштабных видео-кодировщиков. Основываясь на последних достижениях в авторегрессионном предварительном обучении моделей видео, мы расширяем эту структуру до мультимодальной среды, то есть, изображения и текста. В данной статье мы представляем AIMV2, семейство универсальных видео-кодировщиков, характеризующихся простым процессом предварительного обучения, масштабируемостью и выдающейся производительностью на широком спектре последующих задач. Это достигается путем сочетания видео-кодировщика с мультимодальным декодером, который авторегрессивно генерирует необработанные фрагменты изображений и текстовые токены. Наши кодировщики выдают не только высокие результаты в мультимодальной оценке, но также в видео-бенчмарках, таких как локализация, привязка и классификация. Заметим, что наш кодировщик AIMV2-3B достигает точности 89.5% на ImageNet-1k с замороженным стволом. Кроме того, AIMV2 последовательно превосходит современные контрастные модели (например, CLIP, SigLIP) в мультимодальном понимании изображений в различных средах.
English
We introduce a novel method for pre-training of large-scale vision encoders.
Building on recent advancements in autoregressive pre-training of vision
models, we extend this framework to a multimodal setting, i.e., images and
text. In this paper, we present AIMV2, a family of generalist vision encoders
characterized by a straightforward pre-training process, scalability, and
remarkable performance across a range of downstream tasks. This is achieved by
pairing the vision encoder with a multimodal decoder that autoregressively
generates raw image patches and text tokens. Our encoders excel not only in
multimodal evaluations but also in vision benchmarks such as localization,
grounding, and classification. Notably, our AIMV2-3B encoder achieves 89.5%
accuracy on ImageNet-1k with a frozen trunk. Furthermore, AIMV2 consistently
outperforms state-of-the-art contrastive models (e.g., CLIP, SigLIP) in
multimodal image understanding across diverse settings.Summary
AI-Generated Summary