ChatPaper.aiChatPaper

Deja que ViT Hable: Pre-entrenamiento Generativo de Lenguaje e Imagen

Let ViT Speak: Generative Language-Image Pre-training

May 1, 2026
Autores: Yan Fang, Mengcheng Lan, Zilong Huang, Weixian Lei, Yunqing Zhao, Yujie Zhong, Yingchen Yu, Qi She, Yao Zhao, Yunchao Wei
cs.AI

Resumen

En este artículo, presentamos Generative Language-Image Pre-training (GenLIP), un marco minimalista de preentrenamiento generativo para Vision Transformers (ViTs) diseñado para modelos de lenguaje multimodal de gran escala (MLLMs). Para alinear mejor los codificadores de visión con la naturaleza autoregresiva de los LLMs, GenLIP entrena una ViT para predecir tokens lingüísticos directamente a partir de tokens visuales utilizando un objetivo de modelado del lenguaje estándar, sin construcción de lotes contrastivos ni un decodificador de texto adicional. Este diseño ofrece tres ventajas clave: (1) Simplicidad: un único transformer modela conjuntamente tokens visuales y textuales; (2) Escalabilidad: escala eficazmente tanto con el tamaño de los datos como del modelo; y (3) Rendimiento: logra resultados competitivos o superiores en diversos benchmarks multimodales. Entrenado con 8B muestras de Recap-DataComp-1B, GenLIP iguala o supera a líneas base sólidas a pesar de utilizar sustancialmente menos datos de preentrenamiento. Tras un preentrenamiento continuado con imágenes de múltiples resoluciones en relaciones de aspecto nativas, GenLIP mejora aún más en tareas sensibles a los detalles como OCR y comprensión de gráficos, convirtiéndolo en una base sólida para codificadores de visión en MLLMs.
English
In this paper, we present Generative Language-Image Pre-training (GenLIP), a minimalist generative pretraining framework for Vision Transformers (ViTs) designed for multimodal large language models (MLLMs). To better align vision encoders with the autoregressive nature of LLMs, GenLIP trains a ViT to predict language tokens directly from visual tokens using a standard language modeling objective, without contrastive batch construction or an additional text decoder. This design offers three key advantages: (1) Simplicity: a single transformer jointly models visual and textual tokens; (2) Scalability: it scales effectively with both data and model size; and (3) Performance: it achieves competitive or superior results across diverse multimodal benchmarks. Trained on 8B samples from Recap-DataComp-1B, GenLIP matches or surpasses strong baselines despite using substantially less pretraining data. After continued pretraining on multi-resolution images at native aspect ratios, GenLIP further improves on detail-sensitive tasks such as OCR and chart understanding, making it a strong foundation for vision encoders in MLLMs.
PDF91May 5, 2026