Schalen van Autoregressieve Multi-Modale Modellen: Vooraf Trainen en Instructie Afstemmen

Samenvatting

We presenteren CM3Leon (uitgesproken als "Chameleon"), een retrieval-augmented, token-gebaseerd, decoder-only multimodaal taalmodel dat zowel tekst als afbeeldingen kan genereren en invullen. CM3Leon maakt gebruik van de CM3 multimodale architectuur, maar laat daarnaast de extreme voordelen zien van opschaling en afstemming op meer diverse instructiegestuurde data. Het is het eerste multimodale model dat is getraind met een recept dat is aangepast van tekst-only taalmodelen, inclusief een grootschalige retrieval-augmented pre-training fase en een tweede multi-task supervised fine-tuning (SFT) fase. Het is tevens een algemeen toepasbaar model dat zowel tekst-naar-afbeelding als afbeelding-naar-tekst generatie kan uitvoeren, waardoor we zelfstandige contrastieve decodeermethoden kunnen introduceren die hoogwaardige uitvoer produceren. Uitgebreide experimenten tonen aan dat dit recept zeer effectief is voor multimodale modellen. CM3Leon behaalt state-of-the-art prestaties in tekst-naar-afbeelding generatie met 5x minder trainingsrekenkracht dan vergelijkbare methoden (zero-shot MS-COCO FID van 4.88). Na SFT kan CM3Leon ook ongekende niveaus van beheersbaarheid demonstreren in taken variërend van taalgestuurde beeldbewerking tot beeldgestuurde generatie en segmentatie.

English

We present CM3Leon (pronounced "Chameleon"), a retrieval-augmented, token-based, decoder-only multi-modal language model capable of generating and infilling both text and images. CM3Leon uses the CM3 multi-modal architecture but additionally shows the extreme benefits of scaling up and tuning on more diverse instruction-style data. It is the first multi-modal model trained with a recipe adapted from text-only language models, including a large-scale retrieval-augmented pre-training stage and a second multi-task supervised fine-tuning (SFT) stage. It is also a general-purpose model that can do both text-to-image and image-to-text generation, allowing us to introduce self-contained contrastive decoding methods that produce high-quality outputs. Extensive experiments demonstrate that this recipe is highly effective for multi-modal models. CM3Leon achieves state-of-the-art performance in text-to-image generation with 5x less training compute than comparable methods (zero-shot MS-COCO FID of 4.88). After SFT, CM3Leon can also demonstrate unprecedented levels of controllability in tasks ranging from language-guided image editing to image-controlled generation and segmentation.

Schalen van Autoregressieve Multi-Modale Modellen: Vooraf Trainen en Instructie Afstemmen

Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning

Samenvatting

Support