VL-GPT : Un Transformeur Pré-entraîné Génératif pour la Compréhension et la Génération Visuelles et Linguistiques
VL-GPT: A Generative Pre-trained Transformer for Vision and Language Understanding and Generation
December 14, 2023
Auteurs: Jinguo Zhu, Xiaohan Ding, Yixiao Ge, Yuying Ge, Sijie Zhao, Hengshuang Zhao, Xiaohua Wang, Ying Shan
cs.AI
Résumé
Dans ce travail, nous présentons Vision-Language Generative Pre-trained Transformer (VL-GPT), un modèle de transformateur capable de percevoir et de générer simultanément des données visuelles et linguistiques. VL-GPT réalise une approche de pré-entraînement unifiée pour les modalités image et texte en utilisant un objectif auto-régressif simple, permettant ainsi au modèle de traiter les images et le texte aussi naturellement qu'un modèle de langage traite le texte. Pour y parvenir, nous proposons d'abord un nouveau cadre de tokenizer-détokenizer pour les données visuelles, conçu spécifiquement pour transformer des images brutes en une séquence d'embeddings continus et les reconstruire en conséquence. Combiné avec le tokenizer et détokenizer de texte existants, ce cadre permet d'encoder des données image-texte entrelacées en une séquence multimodale, qui peut ensuite être introduite dans le modèle de transformateur. Par conséquent, VL-GPT peut effectuer un pré-entraînement à grande échelle sur des corpus multimodaux en utilisant un objectif auto-régressif unifié (c'est-à-dire la prédiction du token suivant). Une fois le pré-entraînement terminé, VL-GPT démontre des performances remarquables en zero-shot et few-shot sur une variété de tâches de compréhension et de génération visuelles et linguistiques, incluant la génération de légendes d'images, la réponse à des questions visuelles, la génération d'images à partir de texte, et plus encore. De plus, le modèle pré-entraîné conserve des capacités d'apprentissage en contexte lorsqu'il est fourni avec des prompts multimodaux. Nous effectuons également un réglage par instruction sur notre VL-GPT, mettant en évidence son potentiel exceptionnel pour l'assistance multimodale. Le code source et les poids du modèle seront rendus publics.
English
In this work, we introduce Vision-Language Generative Pre-trained Transformer
(VL-GPT), a transformer model proficient at concurrently perceiving and
generating visual and linguistic data. VL-GPT achieves a unified pre-training
approach for both image and text modalities by employing a straightforward
auto-regressive objective, thereby enabling the model to process image and text
as seamlessly as a language model processes text. To accomplish this, we
initially propose a novel image tokenizer-detokenizer framework for visual
data, specifically designed to transform raw images into a sequence of
continuous embeddings and reconstruct them accordingly. In combination with the
existing text tokenizer and detokenizer, this framework allows for the encoding
of interleaved image-text data into a multimodal sequence, which can
subsequently be fed into the transformer model. Consequently, VL-GPT can
perform large-scale pre-training on multimodal corpora utilizing a unified
auto-regressive objective (i.e., next-token prediction). Upon completion of
pre-training, VL-GPT exhibits remarkable zero-shot and few-shot performance
across a diverse range of vision and language understanding and generation
tasks, including image captioning, visual question answering, text-to-image
generation, and more. Additionally, the pre-trained model retrains in-context
learning capabilities when provided with multimodal prompts. We further conduct
instruction tuning on our VL-GPT, highlighting its exceptional potential for
multimodal assistance. The source code and model weights shall be released.