Pré-treinamento Autoregressivo Multimodal de Grandes Codificadores de Visão
Multimodal Autoregressive Pre-training of Large Vision Encoders
November 21, 2024
Autores: Enrico Fini, Mustafa Shukor, Xiujun Li, Philipp Dufter, Michal Klein, David Haldimann, Sai Aitharaju, Victor Guilherme Turrisi da Costa, Louis Béthune, Zhe Gan, Alexander T Toshev, Marcin Eichner, Moin Nabi, Yinfei Yang, Joshua M. Susskind, Alaaeldin El-Nouby
cs.AI
Resumo
Apresentamos um método inovador para pré-treinamento de codificadores de visão em larga escala. Baseando-nos nos avanços recentes no pré-treinamento autoregressivo de modelos de visão, estendemos esse framework para um ambiente multimodal, ou seja, imagens e texto. Neste artigo, apresentamos AIMV2, uma família de codificadores de visão generalistas caracterizados por um processo simples de pré-treinamento, escalabilidade e desempenho notável em uma variedade de tarefas subsequentes. Isso é alcançado ao combinar o codificador de visão com um decodificador multimodal que gera autoregressivamente patches de imagem brutos e tokens de texto. Nossos codificadores se destacam não apenas em avaliações multimodais, mas também em benchmarks de visão, como localização, ancoragem e classificação. Notavelmente, nosso codificador AIMV2-3B alcança uma precisão de 89,5% no ImageNet-1k com um tronco congelado. Além disso, o AIMV2 consistentemente supera modelos contrastivos de ponta (por exemplo, CLIP, SigLIP) na compreensão multimodal de imagens em diversos cenários.
English
We introduce a novel method for pre-training of large-scale vision encoders.
Building on recent advancements in autoregressive pre-training of vision
models, we extend this framework to a multimodal setting, i.e., images and
text. In this paper, we present AIMV2, a family of generalist vision encoders
characterized by a straightforward pre-training process, scalability, and
remarkable performance across a range of downstream tasks. This is achieved by
pairing the vision encoder with a multimodal decoder that autoregressively
generates raw image patches and text tokens. Our encoders excel not only in
multimodal evaluations but also in vision benchmarks such as localization,
grounding, and classification. Notably, our AIMV2-3B encoder achieves 89.5%
accuracy on ImageNet-1k with a frozen trunk. Furthermore, AIMV2 consistently
outperforms state-of-the-art contrastive models (e.g., CLIP, SigLIP) in
multimodal image understanding across diverse settings.Summary
AI-Generated Summary