Pré-treinamento Generativo em Multimodalidade
Generative Pretraining in Multimodality
July 11, 2023
Autores: Quan Sun, Qiying Yu, Yufeng Cui, Fan Zhang, Xiaosong Zhang, Yueze Wang, Hongcheng Gao, Jingjing Liu, Tiejun Huang, Xinlong Wang
cs.AI
Resumo
Apresentamos o Emu, um modelo de base multimodal baseado em Transformers, capaz de gerar imagens e textos de forma integrada em contextos multimodais. Este modelo onívoro pode processar indiscriminadamente qualquer entrada de dados unimodal ou multimodal (por exemplo, imagens, textos e vídeos intercalados) por meio de um processo de treinamento autoregressivo único. Primeiro, os sinais visuais são codificados em embeddings e, juntamente com os tokens de texto, formam uma sequência de entrada intercalada. O Emu é então treinado de ponta a ponta com um objetivo unificado de classificar o próximo token de texto ou regredir o próximo embedding visual na sequência multimodal. Essa versatilidade multimodal permite a exploração de diversas fontes de dados de pré-treinamento em escala, como vídeos com quadros e textos intercalados, páginas da web com imagens e textos intercalados, além de pares de imagem-texto e vídeo-texto em escala web. O Emu pode servir como uma interface multimodal generalista para tarefas de imagem-para-texto e texto-para-imagem, e suporta geração de imagens e textos em contexto. Em uma ampla gama de tarefas zero-shot/few-shot, incluindo legendagem de imagens, resposta a perguntas visuais, resposta a perguntas em vídeos e geração de texto-para-imagem, o Emu demonstra desempenho superior em comparação com os melhores modelos multimodais de grande escala. Capacidades estendidas, como assistentes multimodais via ajuste por instrução, também são demonstradas com desempenho impressionante.
English
We present Emu, a Transformer-based multimodal foundation model, which can
seamlessly generate images and texts in multimodal context. This omnivore model
can take in any single-modality or multimodal data input indiscriminately
(e.g., interleaved image, text and video) through a one-model-for-all
autoregressive training process. First, visual signals are encoded into
embeddings, and together with text tokens form an interleaved input sequence.
Emu is then end-to-end trained with a unified objective of classifying the next
text token or regressing the next visual embedding in the multimodal sequence.
This versatile multimodality empowers the exploration of diverse pretraining
data sources at scale, such as videos with interleaved frames and text,
webpages with interleaved images and text, as well as web-scale image-text
pairs and video-text pairs. Emu can serve as a generalist multimodal interface
for both image-to-text and text-to-image tasks, and supports in-context image
and text generation. Across a broad range of zero-shot/few-shot tasks including
image captioning, visual question answering, video question answering and
text-to-image generation, Emu demonstrates superb performance compared to
state-of-the-art large multimodal models. Extended capabilities such as
multimodal assistants via instruction tuning are also demonstrated with
impressive performance.