Laat ViT Spreken: Generatieve Taal-Beeld Vooraf-training
Let ViT Speak: Generative Language-Image Pre-training
May 1, 2026
Auteurs: Yan Fang, Mengcheng Lan, Zilong Huang, Weixian Lei, Yunqing Zhao, Yujie Zhong, Yingchen Yu, Qi She, Yao Zhao, Yunchao Wei
cs.AI
Samenvatting
In dit artikel presenteren we Generative Language-Image Pre-training (GenLIP), een minimalistisch generatief voor-trainingsraamwerk voor Vision Transformers (ViTs) dat is ontworpen voor multimodale grote taalmodellen (MLLMs). Om visuele encoders beter af te stemmen op het autoregressieve karakter van LLMs, traint GenLIP een ViT om taaltokens direct vanuit visuele tokens te voorspellen met behulp van een standaard taalmodelleringsdoelstelling, zonder contrastieve batchconstructie of een extra tekstdecoder. Dit ontwerp biedt drie belangrijke voordelen: (1) Eenvoud: een enkele transformer modelleert gezamenlijk visuele en tekstuele tokens; (2) Schaalbaarheid: het schaalt effectief met zowel data- als modelgrootte; en (3) Prestaties: het behaalt concurrerende of superieure resultaten op diverse multimodale benchmarks. Getraind op 8B samples van Recap-DataComp-1B, evenaart of overtreft GenLIP sterke baseline-modellen ondanks het gebruik van aanzienlijk minder voor-trainingsdata. Na voortgezette training op multi-resolutie afbeeldingen met originele beeldverhoudingen, verbetert GenLIP verder op detailgevoelige taken zoals OCR en het begrijpen van grafieken, waardoor het een sterke basis vormt voor visuele encoders in MLLMs.
English
In this paper, we present Generative Language-Image Pre-training (GenLIP), a minimalist generative pretraining framework for Vision Transformers (ViTs) designed for multimodal large language models (MLLMs). To better align vision encoders with the autoregressive nature of LLMs, GenLIP trains a ViT to predict language tokens directly from visual tokens using a standard language modeling objective, without contrastive batch construction or an additional text decoder. This design offers three key advantages: (1) Simplicity: a single transformer jointly models visual and textual tokens; (2) Scalability: it scales effectively with both data and model size; and (3) Performance: it achieves competitive or superior results across diverse multimodal benchmarks. Trained on 8B samples from Recap-DataComp-1B, GenLIP matches or surpasses strong baselines despite using substantially less pretraining data. After continued pretraining on multi-resolution images at native aspect ratios, GenLIP further improves on detail-sensitive tasks such as OCR and chart understanding, making it a strong foundation for vision encoders in MLLMs.