VL-GPT : Un Transformeur Pré-entraîné Génératif pour la Compréhension et la Génération Visuelles et Linguistiques

papers.abstract

Dans ce travail, nous présentons Vision-Language Generative Pre-trained Transformer (VL-GPT), un modèle de transformateur capable de percevoir et de générer simultanément des données visuelles et linguistiques. VL-GPT réalise une approche de pré-entraînement unifiée pour les modalités image et texte en utilisant un objectif auto-régressif simple, permettant ainsi au modèle de traiter les images et le texte aussi naturellement qu'un modèle de langage traite le texte. Pour y parvenir, nous proposons d'abord un nouveau cadre de tokenizer-détokenizer pour les données visuelles, conçu spécifiquement pour transformer des images brutes en une séquence d'embeddings continus et les reconstruire en conséquence. Combiné avec le tokenizer et détokenizer de texte existants, ce cadre permet d'encoder des données image-texte entrelacées en une séquence multimodale, qui peut ensuite être introduite dans le modèle de transformateur. Par conséquent, VL-GPT peut effectuer un pré-entraînement à grande échelle sur des corpus multimodaux en utilisant un objectif auto-régressif unifié (c'est-à-dire la prédiction du token suivant). Une fois le pré-entraînement terminé, VL-GPT démontre des performances remarquables en zero-shot et few-shot sur une variété de tâches de compréhension et de génération visuelles et linguistiques, incluant la génération de légendes d'images, la réponse à des questions visuelles, la génération d'images à partir de texte, et plus encore. De plus, le modèle pré-entraîné conserve des capacités d'apprentissage en contexte lorsqu'il est fourni avec des prompts multimodaux. Nous effectuons également un réglage par instruction sur notre VL-GPT, mettant en évidence son potentiel exceptionnel pour l'assistance multimodale. Le code source et les poids du modèle seront rendus publics.

English

In this work, we introduce Vision-Language Generative Pre-trained Transformer (VL-GPT), a transformer model proficient at concurrently perceiving and generating visual and linguistic data. VL-GPT achieves a unified pre-training approach for both image and text modalities by employing a straightforward auto-regressive objective, thereby enabling the model to process image and text as seamlessly as a language model processes text. To accomplish this, we initially propose a novel image tokenizer-detokenizer framework for visual data, specifically designed to transform raw images into a sequence of continuous embeddings and reconstruct them accordingly. In combination with the existing text tokenizer and detokenizer, this framework allows for the encoding of interleaved image-text data into a multimodal sequence, which can subsequently be fed into the transformer model. Consequently, VL-GPT can perform large-scale pre-training on multimodal corpora utilizing a unified auto-regressive objective (i.e., next-token prediction). Upon completion of pre-training, VL-GPT exhibits remarkable zero-shot and few-shot performance across a diverse range of vision and language understanding and generation tasks, including image captioning, visual question answering, text-to-image generation, and more. Additionally, the pre-trained model retrains in-context learning capabilities when provided with multimodal prompts. We further conduct instruction tuning on our VL-GPT, highlighting its exceptional potential for multimodal assistance. The source code and model weights shall be released.

VL-GPT : Un Transformeur Pré-entraîné Génératif pour la Compréhension et la Génération Visuelles et Linguistiques

VL-GPT: A Generative Pre-trained Transformer for Vision and Language Understanding and Generation

papers.abstract

Support