Prétraitement génératif en multimodalité
Generative Pretraining in Multimodality
July 11, 2023
Auteurs: Quan Sun, Qiying Yu, Yufeng Cui, Fan Zhang, Xiaosong Zhang, Yueze Wang, Hongcheng Gao, Jingjing Liu, Tiejun Huang, Xinlong Wang
cs.AI
Résumé
Nous présentons Emu, un modèle de fondation multimodal basé sur Transformer, capable de générer de manière fluide des images et des textes dans un contexte multimodal. Ce modèle omnivore peut traiter indifféremment toute entrée de données unimodale ou multimodale (par exemple, des séquences entrelacées d'images, de texte et de vidéo) grâce à un processus d'entraînement autorégressif unique. Dans un premier temps, les signaux visuels sont encodés en embeddings, qui forment, avec les tokens de texte, une séquence d'entrée entrelacée. Emu est ensuite entraîné de bout en bout avec un objectif unifié : classer le prochain token de texte ou régresser le prochain embedding visuel dans la séquence multimodale. Cette polyvalence multimodale permet d'explorer à grande échelle diverses sources de données de pré-entraînement, telles que des vidéos avec des images et du texte entrelacés, des pages web avec des images et du texte entrelacés, ainsi que des paires image-texte et vidéo-texte à l'échelle du web. Emu peut servir d'interface multimodale généraliste pour les tâches de génération d'image à partir de texte et de texte à partir d'image, et prend en charge la génération d'images et de texte en contexte. Sur un large éventail de tâches en zero-shot/few-shot, notamment la légende d'images, la réponse à des questions visuelles, la réponse à des questions vidéo et la génération d'images à partir de texte, Emu démontre des performances exceptionnelles par rapport aux modèles multimodaux de pointe. Des capacités étendues, telles que des assistants multimodaux via le réglage par instruction, sont également démontrées avec des résultats impressionnants.
English
We present Emu, a Transformer-based multimodal foundation model, which can
seamlessly generate images and texts in multimodal context. This omnivore model
can take in any single-modality or multimodal data input indiscriminately
(e.g., interleaved image, text and video) through a one-model-for-all
autoregressive training process. First, visual signals are encoded into
embeddings, and together with text tokens form an interleaved input sequence.
Emu is then end-to-end trained with a unified objective of classifying the next
text token or regressing the next visual embedding in the multimodal sequence.
This versatile multimodality empowers the exploration of diverse pretraining
data sources at scale, such as videos with interleaved frames and text,
webpages with interleaved images and text, as well as web-scale image-text
pairs and video-text pairs. Emu can serve as a generalist multimodal interface
for both image-to-text and text-to-image tasks, and supports in-context image
and text generation. Across a broad range of zero-shot/few-shot tasks including
image captioning, visual question answering, video question answering and
text-to-image generation, Emu demonstrates superb performance compared to
state-of-the-art large multimodal models. Extended capabilities such as
multimodal assistants via instruction tuning are also demonstrated with
impressive performance.