ChatPaper.aiChatPaper

VL-GPT: Ein generatives, vortrainiertes Transformer-Modell für das Verständnis und die Generierung von Vision und Sprache

VL-GPT: A Generative Pre-trained Transformer for Vision and Language Understanding and Generation

December 14, 2023
Autoren: Jinguo Zhu, Xiaohan Ding, Yixiao Ge, Yuying Ge, Sijie Zhao, Hengshuang Zhao, Xiaohua Wang, Ying Shan
cs.AI

Zusammenfassung

In dieser Arbeit stellen wir den Vision-Language Generative Pre-trained Transformer (VL-GPT) vor, ein Transformer-Modell, das in der Lage ist, visuelle und sprachliche Daten gleichzeitig wahrzunehmen und zu generieren. VL-GPT erreicht einen einheitlichen Pre-Training-Ansatz für sowohl Bild- als auch Textmodalitäten durch die Verwendung eines einfachen autoregressiven Ziels, wodurch das Modell Bilder und Texte so nahtlos verarbeiten kann, wie ein Sprachmodell Texte verarbeitet. Um dies zu erreichen, schlagen wir zunächst ein neuartiges Bild-Tokenizer-Detokenizer-Framework für visuelle Daten vor, das speziell dafür entwickelt wurde, Rohbilder in eine Sequenz kontinuierlicher Embeddings zu transformieren und sie entsprechend zu rekonstruieren. In Kombination mit dem bestehenden Text-Tokenizer und Detokenizer ermöglicht dieses Framework die Kodierung von verschachtelten Bild-Text-Daten in eine multimodale Sequenz, die anschließend in das Transformer-Modell eingespeist werden kann. Folglich kann VL-GPT ein groß angelegtes Pre-Training auf multimodalen Korpora unter Verwendung eines einheitlichen autoregressiven Ziels (d. h. der Vorhersage des nächsten Tokens) durchführen. Nach Abschluss des Pre-Trainings zeigt VL-GPT bemerkenswerte Zero-Shot- und Few-Shot-Leistungen über eine Vielzahl von Aufgaben im Bereich des Verstehens und der Generierung von Vision und Sprache, einschließlich Bildbeschriftung, visueller Fragebeantwortung, Text-zu-Bild-Generierung und mehr. Darüber hinaus behält das vortrainierte Modell Fähigkeiten zum In-Context-Learning bei, wenn es mit multimodalen Prompts versehen wird. Wir führen weiterhin Instruction Tuning an unserem VL-GPT durch, um sein außergewöhnliches Potenzial für multimodale Assistenz hervorzuheben. Der Quellcode und die Modellgewichte werden veröffentlicht.
English
In this work, we introduce Vision-Language Generative Pre-trained Transformer (VL-GPT), a transformer model proficient at concurrently perceiving and generating visual and linguistic data. VL-GPT achieves a unified pre-training approach for both image and text modalities by employing a straightforward auto-regressive objective, thereby enabling the model to process image and text as seamlessly as a language model processes text. To accomplish this, we initially propose a novel image tokenizer-detokenizer framework for visual data, specifically designed to transform raw images into a sequence of continuous embeddings and reconstruct them accordingly. In combination with the existing text tokenizer and detokenizer, this framework allows for the encoding of interleaved image-text data into a multimodal sequence, which can subsequently be fed into the transformer model. Consequently, VL-GPT can perform large-scale pre-training on multimodal corpora utilizing a unified auto-regressive objective (i.e., next-token prediction). Upon completion of pre-training, VL-GPT exhibits remarkable zero-shot and few-shot performance across a diverse range of vision and language understanding and generation tasks, including image captioning, visual question answering, text-to-image generation, and more. Additionally, the pre-trained model retrains in-context learning capabilities when provided with multimodal prompts. We further conduct instruction tuning on our VL-GPT, highlighting its exceptional potential for multimodal assistance. The source code and model weights shall be released.
PDF101December 15, 2024