ChatPaper.aiChatPaper

VL-GPT: Un Transformer Preentrenado Generativo para la Comprensión y Generación de Visión y Lenguaje

VL-GPT: A Generative Pre-trained Transformer for Vision and Language Understanding and Generation

December 14, 2023
Autores: Jinguo Zhu, Xiaohan Ding, Yixiao Ge, Yuying Ge, Sijie Zhao, Hengshuang Zhao, Xiaohua Wang, Ying Shan
cs.AI

Resumen

En este trabajo, presentamos el Transformer Generativo Preentrenado de Visión y Lenguaje (VL-GPT), un modelo basado en transformers que es competente para percibir y generar simultáneamente datos visuales y lingüísticos. VL-GPT logra un enfoque de preentrenamiento unificado para las modalidades de imagen y texto mediante el uso de un objetivo auto-regresivo sencillo, lo que permite al modelo procesar imágenes y texto de manera tan fluida como un modelo de lenguaje procesa texto. Para lograr esto, inicialmente proponemos un novedoso marco de tokenización y detokenización de imágenes para datos visuales, específicamente diseñado para transformar imágenes en bruto en una secuencia de embeddings continuos y reconstruirlas en consecuencia. En combinación con el tokenizador y detokenizador de texto existentes, este marco permite codificar datos intercalados de imagen y texto en una secuencia multimodal, que posteriormente puede ser alimentada al modelo transformer. Como resultado, VL-GPT puede realizar preentrenamiento a gran escala en corpus multimodales utilizando un objetivo auto-regresivo unificado (es decir, la predicción del siguiente token). Una vez completado el preentrenamiento, VL-GPT exhibe un rendimiento notable en tareas de comprensión y generación de visión y lenguaje en escenarios de zero-shot y few-shot, incluyendo la generación de descripciones de imágenes, respuesta a preguntas visuales, generación de imágenes a partir de texto, y más. Además, el modelo preentrenado conserva capacidades de aprendizaje en contexto cuando se le proporcionan indicaciones multimodales. Realizamos también ajuste por instrucciones en nuestro VL-GPT, destacando su potencial excepcional para la asistencia multimodal. El código fuente y los pesos del modelo serán publicados.
English
In this work, we introduce Vision-Language Generative Pre-trained Transformer (VL-GPT), a transformer model proficient at concurrently perceiving and generating visual and linguistic data. VL-GPT achieves a unified pre-training approach for both image and text modalities by employing a straightforward auto-regressive objective, thereby enabling the model to process image and text as seamlessly as a language model processes text. To accomplish this, we initially propose a novel image tokenizer-detokenizer framework for visual data, specifically designed to transform raw images into a sequence of continuous embeddings and reconstruct them accordingly. In combination with the existing text tokenizer and detokenizer, this framework allows for the encoding of interleaved image-text data into a multimodal sequence, which can subsequently be fed into the transformer model. Consequently, VL-GPT can perform large-scale pre-training on multimodal corpora utilizing a unified auto-regressive objective (i.e., next-token prediction). Upon completion of pre-training, VL-GPT exhibits remarkable zero-shot and few-shot performance across a diverse range of vision and language understanding and generation tasks, including image captioning, visual question answering, text-to-image generation, and more. Additionally, the pre-trained model retrains in-context learning capabilities when provided with multimodal prompts. We further conduct instruction tuning on our VL-GPT, highlighting its exceptional potential for multimodal assistance. The source code and model weights shall be released.
PDF101December 15, 2024