Escalado de Modelos Autoregresivos Multimodales: Pretrenamiento y Ajuste por Instrucción

Resumen

Presentamos CM3Leon (pronunciado "Camaleón"), un modelo de lenguaje multimodal basado en tokens, solo de decodificación y aumentado con recuperación, capaz de generar y rellenar tanto texto como imágenes. CM3Leon utiliza la arquitectura multimodal CM3, pero además demuestra los beneficios extremos de escalar y ajustar con datos más diversos de estilo instruccional. Es el primer modelo multimodal entrenado con una receta adaptada de modelos de lenguaje exclusivamente de texto, que incluye una etapa de preentrenamiento a gran escala aumentada con recuperación y una segunda etapa de ajuste fino supervisado (SFT) multitarea. También es un modelo de propósito general que puede realizar tanto generación de texto a imagen como de imagen a texto, lo que nos permite introducir métodos de decodificación contrastiva autocontenidos que producen resultados de alta calidad. Experimentos extensivos demuestran que esta receta es altamente efectiva para modelos multimodales. CM3Leon alcanza un rendimiento de vanguardia en generación de texto a imagen con 5 veces menos cómputo de entrenamiento que métodos comparables (FID cero-shot en MS-COCO de 4.88). Después del SFT, CM3Leon también puede demostrar niveles sin precedentes de controlabilidad en tareas que van desde la edición de imágenes guiada por lenguaje hasta la generación y segmentación controlada por imágenes.

English

We present CM3Leon (pronounced "Chameleon"), a retrieval-augmented, token-based, decoder-only multi-modal language model capable of generating and infilling both text and images. CM3Leon uses the CM3 multi-modal architecture but additionally shows the extreme benefits of scaling up and tuning on more diverse instruction-style data. It is the first multi-modal model trained with a recipe adapted from text-only language models, including a large-scale retrieval-augmented pre-training stage and a second multi-task supervised fine-tuning (SFT) stage. It is also a general-purpose model that can do both text-to-image and image-to-text generation, allowing us to introduce self-contained contrastive decoding methods that produce high-quality outputs. Extensive experiments demonstrate that this recipe is highly effective for multi-modal models. CM3Leon achieves state-of-the-art performance in text-to-image generation with 5x less training compute than comparable methods (zero-shot MS-COCO FID of 4.88). After SFT, CM3Leon can also demonstrate unprecedented levels of controllability in tasks ranging from language-guided image editing to image-controlled generation and segmentation.

Escalado de Modelos Autoregresivos Multimodales: Pretrenamiento y Ajuste por Instrucción

Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning

Resumen

Support