Generatief Vooraf Trainen in Multimodaliteit
Generative Pretraining in Multimodality
July 11, 2023
Auteurs: Quan Sun, Qiying Yu, Yufeng Cui, Fan Zhang, Xiaosong Zhang, Yueze Wang, Hongcheng Gao, Jingjing Liu, Tiejun Huang, Xinlong Wang
cs.AI
Samenvatting
We presenteren Emu, een Transformer-gebaseerd multimodaal foundation model, dat naadloos afbeeldingen en teksten kan genereren in een multimodale context. Dit omnivore model kan elke single-modality of multimodale data-input zonder onderscheid verwerken (bijvoorbeeld afwisselende afbeeldingen, tekst en video) via een one-model-for-all autoregressief trainingsproces. Eerst worden visuele signalen gecodeerd in embeddings, die samen met teksttokens een afwisselende invoerreeks vormen. Emu wordt vervolgens end-to-end getraind met een uniform doel: het classificeren van het volgende teksttoken of het regresseren van het volgende visuele embedding in de multimodale reeks. Deze veelzijdige multimodaliteit maakt het mogelijk om diverse pretrainingsdatabronnen op grote schaal te verkennen, zoals video's met afwisselende frames en tekst, webpagina's met afwisselende afbeeldingen en tekst, evenals web-scale afbeelding-tekstparen en video-tekstparen. Emu kan dienen als een generalistisch multimodaal interface voor zowel beeld-naar-tekst als tekst-naar-beeld taken, en ondersteunt in-context generatie van afbeeldingen en tekst. Over een breed scala aan zero-shot/few-shot taken, waaronder beeldbeschrijving, visuele vraagbeantwoording, video-vraagbeantwoording en tekst-naar-beeld generatie, toont Emu superieure prestaties vergeleken met state-of-the-art grote multimodale modellen. Uitgebreide mogelijkheden, zoals multimodale assistenten via instructie-tuning, worden eveneens gedemonstreerd met indrukwekkende prestaties.
English
We present Emu, a Transformer-based multimodal foundation model, which can
seamlessly generate images and texts in multimodal context. This omnivore model
can take in any single-modality or multimodal data input indiscriminately
(e.g., interleaved image, text and video) through a one-model-for-all
autoregressive training process. First, visual signals are encoded into
embeddings, and together with text tokens form an interleaved input sequence.
Emu is then end-to-end trained with a unified objective of classifying the next
text token or regressing the next visual embedding in the multimodal sequence.
This versatile multimodality empowers the exploration of diverse pretraining
data sources at scale, such as videos with interleaved frames and text,
webpages with interleaved images and text, as well as web-scale image-text
pairs and video-text pairs. Emu can serve as a generalist multimodal interface
for both image-to-text and text-to-image tasks, and supports in-context image
and text generation. Across a broad range of zero-shot/few-shot tasks including
image captioning, visual question answering, video question answering and
text-to-image generation, Emu demonstrates superb performance compared to
state-of-the-art large multimodal models. Extended capabilities such as
multimodal assistants via instruction tuning are also demonstrated with
impressive performance.