Escalado de Modelos Autoregresivos Multimodales: Pretrenamiento y Ajuste por Instrucción
Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning
September 5, 2023
Autores: Lili Yu, Bowen Shi, Ramakanth Pasunuru, Benjamin Muller, Olga Golovneva, Tianlu Wang, Arun Babu, Binh Tang, Brian Karrer, Shelly Sheynin, Candace Ross, Adam Polyak, Russell Howes, Vasu Sharma, Puxin Xu, Hovhannes Tamoyan, Oron Ashual, Uriel Singer, Shang-Wen Li, Susan Zhang, Richard James, Gargi Ghosh, Yaniv Taigman, Maryam Fazel-Zarandi, Asli Celikyilmaz, Luke Zettlemoyer, Armen Aghajanyan
cs.AI
Resumen
Presentamos CM3Leon (pronunciado "Camaleón"), un modelo de lenguaje multimodal basado en tokens, solo de decodificación y aumentado con recuperación, capaz de generar y rellenar tanto texto como imágenes. CM3Leon utiliza la arquitectura multimodal CM3, pero además demuestra los beneficios extremos de escalar y ajustar con datos más diversos de estilo instruccional. Es el primer modelo multimodal entrenado con una receta adaptada de modelos de lenguaje exclusivamente de texto, que incluye una etapa de preentrenamiento a gran escala aumentada con recuperación y una segunda etapa de ajuste fino supervisado (SFT) multitarea. También es un modelo de propósito general que puede realizar tanto generación de texto a imagen como de imagen a texto, lo que nos permite introducir métodos de decodificación contrastiva autocontenidos que producen resultados de alta calidad. Experimentos extensivos demuestran que esta receta es altamente efectiva para modelos multimodales. CM3Leon alcanza un rendimiento de vanguardia en generación de texto a imagen con 5 veces menos cómputo de entrenamiento que métodos comparables (FID cero-shot en MS-COCO de 4.88). Después del SFT, CM3Leon también puede demostrar niveles sin precedentes de controlabilidad en tareas que van desde la edición de imágenes guiada por lenguaje hasta la generación y segmentación controlada por imágenes.
English
We present CM3Leon (pronounced "Chameleon"), a retrieval-augmented,
token-based, decoder-only multi-modal language model capable of generating and
infilling both text and images. CM3Leon uses the CM3 multi-modal architecture
but additionally shows the extreme benefits of scaling up and tuning on more
diverse instruction-style data. It is the first multi-modal model trained with
a recipe adapted from text-only language models, including a large-scale
retrieval-augmented pre-training stage and a second multi-task supervised
fine-tuning (SFT) stage. It is also a general-purpose model that can do both
text-to-image and image-to-text generation, allowing us to introduce
self-contained contrastive decoding methods that produce high-quality outputs.
Extensive experiments demonstrate that this recipe is highly effective for
multi-modal models. CM3Leon achieves state-of-the-art performance in
text-to-image generation with 5x less training compute than comparable methods
(zero-shot MS-COCO FID of 4.88). After SFT, CM3Leon can also demonstrate
unprecedented levels of controllability in tasks ranging from language-guided
image editing to image-controlled generation and segmentation.