Pre-entrenamiento autoregresivo multimodal de grandes codificadores de visión.
Multimodal Autoregressive Pre-training of Large Vision Encoders
November 21, 2024
Autores: Enrico Fini, Mustafa Shukor, Xiujun Li, Philipp Dufter, Michal Klein, David Haldimann, Sai Aitharaju, Victor Guilherme Turrisi da Costa, Louis Béthune, Zhe Gan, Alexander T Toshev, Marcin Eichner, Moin Nabi, Yinfei Yang, Joshua M. Susskind, Alaaeldin El-Nouby
cs.AI
Resumen
Presentamos un método novedoso para el pre-entrenamiento de codificadores de visión a gran escala. Basándonos en los avances recientes en el pre-entrenamiento autoregresivo de modelos de visión, ampliamos este marco a un entorno multimodal, es decir, imágenes y texto. En este documento, presentamos AIMV2, una familia de codificadores de visión generalistas caracterizados por un proceso de pre-entrenamiento sencillo, escalabilidad y un rendimiento notable en una variedad de tareas secundarias. Esto se logra emparejando el codificador de visión con un decodificador multimodal que genera de forma autoregresiva parches de imagen crudos y tokens de texto. Nuestros codificadores destacan no solo en evaluaciones multimodales, sino también en pruebas de visión como localización, fundamentación y clasificación. Es notable que nuestro codificador AIMV2-3B logra un 89.5% de precisión en ImageNet-1k con un tronco congelado. Además, AIMV2 supera consistentemente a modelos de contraste de vanguardia (por ejemplo, CLIP, SigLIP) en la comprensión de imágenes multimodales en diversos entornos.
English
We introduce a novel method for pre-training of large-scale vision encoders.
Building on recent advancements in autoregressive pre-training of vision
models, we extend this framework to a multimodal setting, i.e., images and
text. In this paper, we present AIMV2, a family of generalist vision encoders
characterized by a straightforward pre-training process, scalability, and
remarkable performance across a range of downstream tasks. This is achieved by
pairing the vision encoder with a multimodal decoder that autoregressively
generates raw image patches and text tokens. Our encoders excel not only in
multimodal evaluations but also in vision benchmarks such as localization,
grounding, and classification. Notably, our AIMV2-3B encoder achieves 89.5%
accuracy on ImageNet-1k with a frozen trunk. Furthermore, AIMV2 consistently
outperforms state-of-the-art contrastive models (e.g., CLIP, SigLIP) in
multimodal image understanding across diverse settings.Summary
AI-Generated Summary