VL-GPT: Een generatief vooraf getraind transformer-model voor visuele en talige begrip en generatie
VL-GPT: A Generative Pre-trained Transformer for Vision and Language Understanding and Generation
December 14, 2023
Auteurs: Jinguo Zhu, Xiaohan Ding, Yixiao Ge, Yuying Ge, Sijie Zhao, Hengshuang Zhao, Xiaohua Wang, Ying Shan
cs.AI
Samenvatting
In dit werk introduceren we de Vision-Language Generative Pre-trained Transformer (VL-GPT), een transformermodel dat bekwaam is in het gelijktijdig waarnemen en genereren van visuele en linguïstische data. VL-GPT bereikt een geünificeerde voorafgaande training voor zowel beeld- als tekstmodaliteiten door gebruik te maken van een eenvoudig auto-regressief doel, waardoor het model beeld en tekst net zo naadloos kan verwerken als een taalmodel tekst verwerkt. Om dit te bereiken, stellen we eerst een nieuw beeld-tokenizer-detokenizer-framework voor visuele data voor, specifiek ontworpen om ruwe beelden om te zetten in een reeks continue embeddings en deze dienovereenkomstig te reconstrueren. In combinatie met de bestaande tekst-tokenizer en -detokenizer maakt dit framework het mogelijk om afgewisselde beeld-tekstdata te coderen in een multimodale reeks, die vervolgens in het transformermodel kan worden ingevoerd. Hierdoor kan VL-GPT grootschalige voorafgaande training uitvoeren op multimodale corpora met behulp van een geünificeerd auto-regressief doel (d.w.z., volgende-token-voorspelling). Na voltooiing van de voorafgaande training vertoont VL-GPT opmerkelijke zero-shot en few-shot prestaties op een diverse reeks visuele en linguïstische begrips- en generatietaken, waaronder beeldbeschrijving, visuele vraagbeantwoording, tekst-naar-beeldgeneratie, en meer. Daarnaast behoudt het vooraf getrainde model in-context leercapaciteiten wanneer het wordt voorzien van multimodale prompts. We voeren verder instructieafstemming uit op onze VL-GPT, wat het uitzonderlijke potentieel voor multimodale assistentie benadrukt. De broncode en modelgewichten zullen worden vrijgegeven.
English
In this work, we introduce Vision-Language Generative Pre-trained Transformer
(VL-GPT), a transformer model proficient at concurrently perceiving and
generating visual and linguistic data. VL-GPT achieves a unified pre-training
approach for both image and text modalities by employing a straightforward
auto-regressive objective, thereby enabling the model to process image and text
as seamlessly as a language model processes text. To accomplish this, we
initially propose a novel image tokenizer-detokenizer framework for visual
data, specifically designed to transform raw images into a sequence of
continuous embeddings and reconstruct them accordingly. In combination with the
existing text tokenizer and detokenizer, this framework allows for the encoding
of interleaved image-text data into a multimodal sequence, which can
subsequently be fed into the transformer model. Consequently, VL-GPT can
perform large-scale pre-training on multimodal corpora utilizing a unified
auto-regressive objective (i.e., next-token prediction). Upon completion of
pre-training, VL-GPT exhibits remarkable zero-shot and few-shot performance
across a diverse range of vision and language understanding and generation
tasks, including image captioning, visual question answering, text-to-image
generation, and more. Additionally, the pre-trained model retrains in-context
learning capabilities when provided with multimodal prompts. We further conduct
instruction tuning on our VL-GPT, highlighting its exceptional potential for
multimodal assistance. The source code and model weights shall be released.