Generatives Pretraining in der Multimodalität
Generative Pretraining in Multimodality
July 11, 2023
Autoren: Quan Sun, Qiying Yu, Yufeng Cui, Fan Zhang, Xiaosong Zhang, Yueze Wang, Hongcheng Gao, Jingjing Liu, Tiejun Huang, Xinlong Wang
cs.AI
Zusammenfassung
Wir stellen Emu vor, ein Transformer-basiertes multimodales Grundlagenmodell, das nahtlos Bilder und Texte in einem multimodalen Kontext generieren kann. Dieses omnivore Modell kann jede einmodale oder multimodale Dateneingabe diskriminierungsfrei verarbeiten (z. B. verschachtelte Bilder, Texte und Videos) durch einen Ein-Modell-für-alle autoregressiven Trainingsprozess. Zunächst werden visuelle Signale in Embeddings kodiert und bilden zusammen mit Text-Tokens eine verschachtelte Eingabesequenz. Emu wird dann end-to-end mit einem einheitlichen Ziel trainiert, das darin besteht, den nächsten Text-Token zu klassifizieren oder das nächste visuelle Embedding in der multimodalen Sequenz zu regressieren. Diese vielseitige Multimodalität ermöglicht die Erschließung verschiedener Pretraining-Datenquellen in großem Maßstab, wie Videos mit verschachtelten Bildern und Texten, Webseiten mit verschachtelten Bildern und Texten sowie webbasierte Bild-Text-Paare und Video-Text-Paare. Emu kann als generalistisches multimodales Interface sowohl für Bild-zu-Text- als auch für Text-zu-Bild-Aufgaben dienen und unterstützt die In-Kontext-Generierung von Bildern und Texten. Über eine breite Palette von Zero-Shot/Few-Shot-Aufgaben, einschließlich Bildbeschriftung, visueller Fragebeantwortung, Video-Fragebeantwortung und Text-zu-Bild-Generierung, zeigt Emu eine herausragende Leistung im Vergleich zu modernsten großen multimodalen Modellen. Erweiterte Fähigkeiten wie multimodale Assistenten durch Instruktionsfeinabstimmung werden ebenfalls mit beeindruckender Leistung demonstriert.
English
We present Emu, a Transformer-based multimodal foundation model, which can
seamlessly generate images and texts in multimodal context. This omnivore model
can take in any single-modality or multimodal data input indiscriminately
(e.g., interleaved image, text and video) through a one-model-for-all
autoregressive training process. First, visual signals are encoded into
embeddings, and together with text tokens form an interleaved input sequence.
Emu is then end-to-end trained with a unified objective of classifying the next
text token or regressing the next visual embedding in the multimodal sequence.
This versatile multimodality empowers the exploration of diverse pretraining
data sources at scale, such as videos with interleaved frames and text,
webpages with interleaved images and text, as well as web-scale image-text
pairs and video-text pairs. Emu can serve as a generalist multimodal interface
for both image-to-text and text-to-image tasks, and supports in-context image
and text generation. Across a broad range of zero-shot/few-shot tasks including
image captioning, visual question answering, video question answering and
text-to-image generation, Emu demonstrates superb performance compared to
state-of-the-art large multimodal models. Extended capabilities such as
multimodal assistants via instruction tuning are also demonstrated with
impressive performance.