VL-GPT: Генеративный предобученный трансформер для понимания и генерации данных в области зрения и языка
VL-GPT: A Generative Pre-trained Transformer for Vision and Language Understanding and Generation
December 14, 2023
Авторы: Jinguo Zhu, Xiaohan Ding, Yixiao Ge, Yuying Ge, Sijie Zhao, Hengshuang Zhao, Xiaohua Wang, Ying Shan
cs.AI
Аннотация
В данной работе мы представляем Vision-Language Generative Pre-trained Transformer (VL-GPT) — трансформерную модель, способную одновременно воспринимать и генерировать визуальные и лингвистические данные. VL-GPT реализует унифицированный подход к предварительному обучению для изображений и текста, используя простую авторегрессионную задачу, что позволяет модели обрабатывать изображения и текст так же естественно, как языковая модель обрабатывает текст. Для достижения этого мы сначала предлагаем новую архитектуру токенизатора-детокенизатора для визуальных данных, специально разработанную для преобразования исходных изображений в последовательность непрерывных эмбеддингов и их последующего восстановления. В сочетании с существующими токенизатором и детокенизатором для текста эта архитектура позволяет кодировать чередующиеся изображения и текст в мультимодальную последовательность, которая затем может быть подана в трансформерную модель. В результате VL-GPT может выполнять масштабное предварительное обучение на мультимодальных корпусах, используя унифицированную авторегрессионную задачу (т.е. предсказание следующего токена). После завершения предварительного обучения VL-GPT демонстрирует выдающуюся производительность в задачах нулевого и немногих примеров для широкого спектра задач понимания и генерации визуальных и текстовых данных, включая создание подписей к изображениям, визуальный вопросно-ответный анализ, генерацию изображений по тексту и многое другое. Кроме того, предобученная модель сохраняет способность к обучению в контексте при работе с мультимодальными запросами. Мы также проводим тонкую настройку инструкций для нашей VL-GPT, подчеркивая её исключительный потенциал для мультимодальной помощи. Исходный код и веса модели будут опубликованы.
English
In this work, we introduce Vision-Language Generative Pre-trained Transformer
(VL-GPT), a transformer model proficient at concurrently perceiving and
generating visual and linguistic data. VL-GPT achieves a unified pre-training
approach for both image and text modalities by employing a straightforward
auto-regressive objective, thereby enabling the model to process image and text
as seamlessly as a language model processes text. To accomplish this, we
initially propose a novel image tokenizer-detokenizer framework for visual
data, specifically designed to transform raw images into a sequence of
continuous embeddings and reconstruct them accordingly. In combination with the
existing text tokenizer and detokenizer, this framework allows for the encoding
of interleaved image-text data into a multimodal sequence, which can
subsequently be fed into the transformer model. Consequently, VL-GPT can
perform large-scale pre-training on multimodal corpora utilizing a unified
auto-regressive objective (i.e., next-token prediction). Upon completion of
pre-training, VL-GPT exhibits remarkable zero-shot and few-shot performance
across a diverse range of vision and language understanding and generation
tasks, including image captioning, visual question answering, text-to-image
generation, and more. Additionally, the pre-trained model retrains in-context
learning capabilities when provided with multimodal prompts. We further conduct
instruction tuning on our VL-GPT, highlighting its exceptional potential for
multimodal assistance. The source code and model weights shall be released.