Scalabilità dei Modelli Multi-Modali Autoregressivi: Pre-addestramento e Ottimizzazione tramite Istruzioni

Abstract

Presentiamo CM3Leon (pronunciato "Camaleonte"), un modello linguistico multimodale basato su token, esclusivamente decoder e potenziato dal retrieval, in grado di generare e completare sia testo che immagini. CM3Leon utilizza l'architettura multimodale CM3, ma dimostra ulteriormente i notevoli vantaggi derivanti dall'aumento della scala e dall'ottimizzazione su dati di istruzione più diversificati. È il primo modello multimodale addestrato seguendo una procedura adattata dai modelli linguistici esclusivamente testuali, inclusa una fase di pre-addestramento su larga scala potenziata dal retrieval e una seconda fase di fine-tuning supervisionato multi-task (SFT). Si tratta inoltre di un modello generico in grado di eseguire sia la generazione da testo a immagine che da immagine a testo, consentendoci di introdurre metodi di decodifica contrastiva autonomi che producono output di alta qualità. Esperimenti estensivi dimostrano che questa procedura è altamente efficace per i modelli multimodali. CM3Leon raggiunge prestazioni all'avanguardia nella generazione da testo a immagine con un consumo computazionale di addestramento 5 volte inferiore rispetto a metodi comparabili (FID zero-shot su MS-COCO di 4,88). Dopo il SFT, CM3Leon può anche dimostrare livelli di controllabilità senza precedenti in compiti che vanno dalla modifica delle immagini guidata dal linguaggio alla generazione e segmentazione controllata dalle immagini.

English

We present CM3Leon (pronounced "Chameleon"), a retrieval-augmented, token-based, decoder-only multi-modal language model capable of generating and infilling both text and images. CM3Leon uses the CM3 multi-modal architecture but additionally shows the extreme benefits of scaling up and tuning on more diverse instruction-style data. It is the first multi-modal model trained with a recipe adapted from text-only language models, including a large-scale retrieval-augmented pre-training stage and a second multi-task supervised fine-tuning (SFT) stage. It is also a general-purpose model that can do both text-to-image and image-to-text generation, allowing us to introduce self-contained contrastive decoding methods that produce high-quality outputs. Extensive experiments demonstrate that this recipe is highly effective for multi-modal models. CM3Leon achieves state-of-the-art performance in text-to-image generation with 5x less training compute than comparable methods (zero-shot MS-COCO FID of 4.88). After SFT, CM3Leon can also demonstrate unprecedented levels of controllability in tasks ranging from language-guided image editing to image-controlled generation and segmentation.

Scalabilità dei Modelli Multi-Modali Autoregressivi: Pre-addestramento e Ottimizzazione tramite Istruzioni

Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning

Abstract

Support