VL-GPT: Um Transformer Pré-treinado Generativo para Compreensão e Geração de Visão e Linguagem
VL-GPT: A Generative Pre-trained Transformer for Vision and Language Understanding and Generation
December 14, 2023
Autores: Jinguo Zhu, Xiaohan Ding, Yixiao Ge, Yuying Ge, Sijie Zhao, Hengshuang Zhao, Xiaohua Wang, Ying Shan
cs.AI
Resumo
Neste trabalho, apresentamos o Vision-Language Generative Pre-trained Transformer (VL-GPT), um modelo baseado em transformadores capaz de perceber e gerar dados visuais e linguísticos de forma simultânea. O VL-GPT alcança uma abordagem unificada de pré-treinamento para as modalidades de imagem e texto ao empregar um objetivo auto-regressivo simples, permitindo que o modelo processe imagens e textos de maneira tão fluida quanto um modelo de linguagem processa texto. Para isso, propomos inicialmente uma nova estrutura de tokenização e detokenização de imagens para dados visuais, projetada especificamente para transformar imagens brutas em uma sequência de embeddings contínuos e reconstruí-las de forma correspondente. Combinada com os tokenizadores e detokenizadores de texto existentes, essa estrutura permite a codificação de dados intercalados de imagem e texto em uma sequência multimodal, que pode então ser alimentada no modelo de transformadores. Como resultado, o VL-GPT pode realizar pré-treinamento em larga escala em corpora multimodais utilizando um objetivo auto-regressivo unificado (ou seja, a previsão do próximo token). Após o pré-treinamento, o VL-GPT demonstra desempenho notável em tarefas de zero-shot e few-shot em uma variedade de atividades de compreensão e geração de visão e linguagem, incluindo legendagem de imagens, resposta a perguntas visuais, geração de texto para imagem e muito mais. Além disso, o modelo pré-treinado mantém capacidades de aprendizado em contexto quando fornecido com prompts multimodais. Realizamos ainda o ajuste por instrução em nosso VL-GPT, destacando seu potencial excepcional para assistência multimodal. O código-fonte e os pesos do modelo serão disponibilizados.
English
In this work, we introduce Vision-Language Generative Pre-trained Transformer
(VL-GPT), a transformer model proficient at concurrently perceiving and
generating visual and linguistic data. VL-GPT achieves a unified pre-training
approach for both image and text modalities by employing a straightforward
auto-regressive objective, thereby enabling the model to process image and text
as seamlessly as a language model processes text. To accomplish this, we
initially propose a novel image tokenizer-detokenizer framework for visual
data, specifically designed to transform raw images into a sequence of
continuous embeddings and reconstruct them accordingly. In combination with the
existing text tokenizer and detokenizer, this framework allows for the encoding
of interleaved image-text data into a multimodal sequence, which can
subsequently be fed into the transformer model. Consequently, VL-GPT can
perform large-scale pre-training on multimodal corpora utilizing a unified
auto-regressive objective (i.e., next-token prediction). Upon completion of
pre-training, VL-GPT exhibits remarkable zero-shot and few-shot performance
across a diverse range of vision and language understanding and generation
tasks, including image captioning, visual question answering, text-to-image
generation, and more. Additionally, the pre-trained model retrains in-context
learning capabilities when provided with multimodal prompts. We further conduct
instruction tuning on our VL-GPT, highlighting its exceptional potential for
multimodal assistance. The source code and model weights shall be released.