Генеративное предобучение в мультимодальности

Аннотация

Мы представляем Emu, мультимодальную базовую модель на основе архитектуры Transformer, которая способна бесшовно генерировать изображения и тексты в мультимодальном контексте. Эта универсальная модель может принимать любые одноканальные или мультимодальные данные без разбора (например, чередующиеся изображения, тексты и видео) благодаря процессу авторегрессивного обучения, реализованному в рамках единой модели. Сначала визуальные сигналы кодируются в эмбеддинги и вместе с текстовыми токенами формируют чередующуюся входную последовательность. Emu обучается сквозным образом с единой целью классификации следующего текстового токена или регрессии следующего визуального эмбеддинга в мультимодальной последовательности. Эта универсальная мультимодальность позволяет масштабно исследовать разнообразные источники данных для предварительного обучения, такие как видео с чередующимися кадрами и текстами, веб-страницы с чередующимися изображениями и текстами, а также масштабные пары изображение-текст и видео-текст. Emu может служить универсальным мультимодальным интерфейсом для задач как генерации текста по изображению, так и генерации изображения по тексту, а также поддерживает генерацию изображений и текстов в контексте. На широком спектре задач с нулевым/малым количеством примеров, включая создание подписей к изображениям, визуальный и видео-вопросоответ, а также генерацию изображений по тексту, Emu демонстрирует превосходную производительность по сравнению с современными крупными мультимодальными моделями. Также продемонстрированы расширенные возможности, такие как мультимодальные ассистенты, настраиваемые с помощью инструкций, с впечатляющими результатами.

English

We present Emu, a Transformer-based multimodal foundation model, which can seamlessly generate images and texts in multimodal context. This omnivore model can take in any single-modality or multimodal data input indiscriminately (e.g., interleaved image, text and video) through a one-model-for-all autoregressive training process. First, visual signals are encoded into embeddings, and together with text tokens form an interleaved input sequence. Emu is then end-to-end trained with a unified objective of classifying the next text token or regressing the next visual embedding in the multimodal sequence. This versatile multimodality empowers the exploration of diverse pretraining data sources at scale, such as videos with interleaved frames and text, webpages with interleaved images and text, as well as web-scale image-text pairs and video-text pairs. Emu can serve as a generalist multimodal interface for both image-to-text and text-to-image tasks, and supports in-context image and text generation. Across a broad range of zero-shot/few-shot tasks including image captioning, visual question answering, video question answering and text-to-image generation, Emu demonstrates superb performance compared to state-of-the-art large multimodal models. Extended capabilities such as multimodal assistants via instruction tuning are also demonstrated with impressive performance.

Генеративное предобучение в мультимодальности

Generative Pretraining in Multimodality

Аннотация

Support