Генеративное предобучение в мультимодальности
Generative Pretraining in Multimodality
July 11, 2023
Авторы: Quan Sun, Qiying Yu, Yufeng Cui, Fan Zhang, Xiaosong Zhang, Yueze Wang, Hongcheng Gao, Jingjing Liu, Tiejun Huang, Xinlong Wang
cs.AI
Аннотация
Мы представляем Emu, мультимодальную базовую модель на основе архитектуры Transformer, которая способна бесшовно генерировать изображения и тексты в мультимодальном контексте. Эта универсальная модель может принимать любые одноканальные или мультимодальные данные без разбора (например, чередующиеся изображения, тексты и видео) благодаря процессу авторегрессивного обучения, реализованному в рамках единой модели. Сначала визуальные сигналы кодируются в эмбеддинги и вместе с текстовыми токенами формируют чередующуюся входную последовательность. Emu обучается сквозным образом с единой целью классификации следующего текстового токена или регрессии следующего визуального эмбеддинга в мультимодальной последовательности. Эта универсальная мультимодальность позволяет масштабно исследовать разнообразные источники данных для предварительного обучения, такие как видео с чередующимися кадрами и текстами, веб-страницы с чередующимися изображениями и текстами, а также масштабные пары изображение-текст и видео-текст. Emu может служить универсальным мультимодальным интерфейсом для задач как генерации текста по изображению, так и генерации изображения по тексту, а также поддерживает генерацию изображений и текстов в контексте. На широком спектре задач с нулевым/малым количеством примеров, включая создание подписей к изображениям, визуальный и видео-вопросоответ, а также генерацию изображений по тексту, Emu демонстрирует превосходную производительность по сравнению с современными крупными мультимодальными моделями. Также продемонстрированы расширенные возможности, такие как мультимодальные ассистенты, настраиваемые с помощью инструкций, с впечатляющими результатами.
English
We present Emu, a Transformer-based multimodal foundation model, which can
seamlessly generate images and texts in multimodal context. This omnivore model
can take in any single-modality or multimodal data input indiscriminately
(e.g., interleaved image, text and video) through a one-model-for-all
autoregressive training process. First, visual signals are encoded into
embeddings, and together with text tokens form an interleaved input sequence.
Emu is then end-to-end trained with a unified objective of classifying the next
text token or regressing the next visual embedding in the multimodal sequence.
This versatile multimodality empowers the exploration of diverse pretraining
data sources at scale, such as videos with interleaved frames and text,
webpages with interleaved images and text, as well as web-scale image-text
pairs and video-text pairs. Emu can serve as a generalist multimodal interface
for both image-to-text and text-to-image tasks, and supports in-context image
and text generation. Across a broad range of zero-shot/few-shot tasks including
image captioning, visual question answering, video question answering and
text-to-image generation, Emu demonstrates superb performance compared to
state-of-the-art large multimodal models. Extended capabilities such as
multimodal assistants via instruction tuning are also demonstrated with
impressive performance.