Laissez ViT Parler : Pré-entraînement génératif langage-image
Let ViT Speak: Generative Language-Image Pre-training
May 1, 2026
Auteurs: Yan Fang, Mengcheng Lan, Zilong Huang, Weixian Lei, Yunqing Zhao, Yujie Zhong, Yingchen Yu, Qi She, Yao Zhao, Yunchao Wei
cs.AI
Résumé
Dans cet article, nous présentons le Pré-entraînement Génératif Langage-Image (GenLIP), un cadre de pré-entraînement génératif minimaliste pour les Vision Transformers (ViTs) conçu pour les grands modèles de langage multimodaux (MLLMs). Pour mieux aligner les encodeurs visuels avec la nature autorégressive des LLMs, GenLIP entraîne un ViT à prédire directement des tokens linguistiques à partir de tokens visuels en utilisant un objectif standard de modélisation du langage, sans construction de lots contrastifs ni décodeur de texte supplémentaire. Cette conception offre trois avantages clés : (1) Simplicité : un seul transformer modélise conjointement les tokens visuels et textuels ; (2) Évolutivité : il s'adapte efficacement à la fois à la taille des données et du modèle ; et (3) Performances : il obtient des résultats compétitifs ou supérieurs sur divers benchmarks multimodaux. Entraîné sur 8 milliards d'échantillons issus de Recap-DataComp-1B, GenLIP égale ou dépasse des bases de référence solides malgré l'utilisation de données de pré-entraînement substantiellement moindres. Après un pré-entraînement continu sur des images multi-résolutions aux ratios d'aspect natifs, GenLIP s'améliore encore sur les tâches sensibles aux détails telles que la OCR et la compréhension de graphiques, ce qui en fait une base solide pour les encodeurs visuels dans les MLLMs.
English
In this paper, we present Generative Language-Image Pre-training (GenLIP), a minimalist generative pretraining framework for Vision Transformers (ViTs) designed for multimodal large language models (MLLMs). To better align vision encoders with the autoregressive nature of LLMs, GenLIP trains a ViT to predict language tokens directly from visual tokens using a standard language modeling objective, without contrastive batch construction or an additional text decoder. This design offers three key advantages: (1) Simplicity: a single transformer jointly models visual and textual tokens; (2) Scalability: it scales effectively with both data and model size; and (3) Performance: it achieves competitive or superior results across diverse multimodal benchmarks. Trained on 8B samples from Recap-DataComp-1B, GenLIP matches or surpasses strong baselines despite using substantially less pretraining data. After continued pretraining on multi-resolution images at native aspect ratios, GenLIP further improves on detail-sensitive tasks such as OCR and chart understanding, making it a strong foundation for vision encoders in MLLMs.