Entrenamiento Generativo Previo en Multimodalidad

Resumen

Presentamos Emu, un modelo fundacional multimodal basado en Transformers, capaz de generar imágenes y textos de manera fluida en contextos multimodales. Este modelo omnívoro puede procesar indistintamente cualquier entrada de datos unimodal o multimodal (por ejemplo, secuencias intercaladas de imágenes, texto y video) mediante un proceso de entrenamiento autorregresivo de un modelo para todos. Primero, las señales visuales se codifican en embeddings, que junto con los tokens de texto forman una secuencia de entrada intercalada. Emu se entrena de extremo a extremo con un objetivo unificado de clasificar el siguiente token de texto o predecir el siguiente embedding visual en la secuencia multimodal. Esta versatilidad multimodal permite explorar diversas fuentes de datos de preentrenamiento a gran escala, como videos con fotogramas y texto intercalados, páginas web con imágenes y texto intercalados, así como pares de imagen-texto y video-texto a escala web. Emu puede servir como una interfaz multimodal generalista tanto para tareas de imagen a texto como de texto a imagen, y admite la generación de imágenes y textos en contexto. En una amplia gama de tareas de cero disparos/pocos disparos, incluyendo la generación de descripciones de imágenes, respuesta a preguntas visuales, respuesta a preguntas sobre videos y generación de imágenes a partir de texto, Emu demuestra un rendimiento sobresaliente en comparación con los modelos multimodales grandes más avanzados. También se muestran capacidades extendidas, como asistentes multimodales mediante ajuste por instrucciones, con un rendimiento impresionante.

English

We present Emu, a Transformer-based multimodal foundation model, which can seamlessly generate images and texts in multimodal context. This omnivore model can take in any single-modality or multimodal data input indiscriminately (e.g., interleaved image, text and video) through a one-model-for-all autoregressive training process. First, visual signals are encoded into embeddings, and together with text tokens form an interleaved input sequence. Emu is then end-to-end trained with a unified objective of classifying the next text token or regressing the next visual embedding in the multimodal sequence. This versatile multimodality empowers the exploration of diverse pretraining data sources at scale, such as videos with interleaved frames and text, webpages with interleaved images and text, as well as web-scale image-text pairs and video-text pairs. Emu can serve as a generalist multimodal interface for both image-to-text and text-to-image tasks, and supports in-context image and text generation. Across a broad range of zero-shot/few-shot tasks including image captioning, visual question answering, video question answering and text-to-image generation, Emu demonstrates superb performance compared to state-of-the-art large multimodal models. Extended capabilities such as multimodal assistants via instruction tuning are also demonstrated with impressive performance.

Entrenamiento Generativo Previo en Multimodalidad

Generative Pretraining in Multimodality

Resumen

Support