VL-GPT: Un Transformer Pre-addestrato Generativo per la Comprensione e Generazione di Visione e Linguaggio
VL-GPT: A Generative Pre-trained Transformer for Vision and Language Understanding and Generation
December 14, 2023
Autori: Jinguo Zhu, Xiaohan Ding, Yixiao Ge, Yuying Ge, Sijie Zhao, Hengshuang Zhao, Xiaohua Wang, Ying Shan
cs.AI
Abstract
In questo lavoro, introduciamo il Vision-Language Generative Pre-trained Transformer (VL-GPT), un modello transformer in grado di percepire e generare simultaneamente dati visivi e linguistici. VL-GPT raggiunge un approccio di pre-training unificato per entrambe le modalità immagine e testo utilizzando un semplice obiettivo auto-regressivo, consentendo così al modello di elaborare immagini e testo in modo fluido, come un modello linguistico elabora il testo. Per realizzare ciò, proponiamo inizialmente un nuovo framework di tokenizer-detokenizer per i dati visivi, progettato specificamente per trasformare immagini grezze in una sequenza di embedding continui e ricostruirle di conseguenza. In combinazione con l’esistente tokenizer e detokenizer per il testo, questo framework consente la codifica di dati immagine-testo intervallati in una sequenza multimodale, che può poi essere alimentata al modello transformer. Di conseguenza, VL-GPT può eseguire un pre-training su larga scala su corpora multimodali utilizzando un obiettivo auto-regressivo unificato (ad esempio, la previsione del token successivo). Al termine del pre-training, VL-GPT dimostra prestazioni notevoli in contesti zero-shot e few-shot su un’ampia gamma di attività di comprensione e generazione visiva e linguistica, tra cui generazione di didascalie per immagini, risposta a domande visive, generazione di immagini da testo e altro ancora. Inoltre, il modello pre-addestrato mantiene capacità di apprendimento in-context quando viene fornito con prompt multimodali. Abbiamo inoltre condotto un’ottimizzazione tramite istruzioni (instruction tuning) sul nostro VL-GPT, evidenziandone il potenziale eccezionale per l’assistenza multimodale. Il codice sorgente e i pesi del modello verranno rilasciati.
English
In this work, we introduce Vision-Language Generative Pre-trained Transformer
(VL-GPT), a transformer model proficient at concurrently perceiving and
generating visual and linguistic data. VL-GPT achieves a unified pre-training
approach for both image and text modalities by employing a straightforward
auto-regressive objective, thereby enabling the model to process image and text
as seamlessly as a language model processes text. To accomplish this, we
initially propose a novel image tokenizer-detokenizer framework for visual
data, specifically designed to transform raw images into a sequence of
continuous embeddings and reconstruct them accordingly. In combination with the
existing text tokenizer and detokenizer, this framework allows for the encoding
of interleaved image-text data into a multimodal sequence, which can
subsequently be fed into the transformer model. Consequently, VL-GPT can
perform large-scale pre-training on multimodal corpora utilizing a unified
auto-regressive objective (i.e., next-token prediction). Upon completion of
pre-training, VL-GPT exhibits remarkable zero-shot and few-shot performance
across a diverse range of vision and language understanding and generation
tasks, including image captioning, visual question answering, text-to-image
generation, and more. Additionally, the pre-trained model retrains in-context
learning capabilities when provided with multimodal prompts. We further conduct
instruction tuning on our VL-GPT, highlighting its exceptional potential for
multimodal assistance. The source code and model weights shall be released.