Schalen van Autoregressieve Multi-Modale Modellen: Vooraf Trainen en Instructie Afstemmen
Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning
September 5, 2023
Auteurs: Lili Yu, Bowen Shi, Ramakanth Pasunuru, Benjamin Muller, Olga Golovneva, Tianlu Wang, Arun Babu, Binh Tang, Brian Karrer, Shelly Sheynin, Candace Ross, Adam Polyak, Russell Howes, Vasu Sharma, Puxin Xu, Hovhannes Tamoyan, Oron Ashual, Uriel Singer, Shang-Wen Li, Susan Zhang, Richard James, Gargi Ghosh, Yaniv Taigman, Maryam Fazel-Zarandi, Asli Celikyilmaz, Luke Zettlemoyer, Armen Aghajanyan
cs.AI
Samenvatting
We presenteren CM3Leon (uitgesproken als "Chameleon"), een retrieval-augmented, token-gebaseerd, decoder-only multimodaal taalmodel dat zowel tekst als afbeeldingen kan genereren en invullen. CM3Leon maakt gebruik van de CM3 multimodale architectuur, maar laat daarnaast de extreme voordelen zien van opschaling en afstemming op meer diverse instructiegestuurde data. Het is het eerste multimodale model dat is getraind met een recept dat is aangepast van tekst-only taalmodelen, inclusief een grootschalige retrieval-augmented pre-training fase en een tweede multi-task supervised fine-tuning (SFT) fase. Het is tevens een algemeen toepasbaar model dat zowel tekst-naar-afbeelding als afbeelding-naar-tekst generatie kan uitvoeren, waardoor we zelfstandige contrastieve decodeermethoden kunnen introduceren die hoogwaardige uitvoer produceren. Uitgebreide experimenten tonen aan dat dit recept zeer effectief is voor multimodale modellen. CM3Leon behaalt state-of-the-art prestaties in tekst-naar-afbeelding generatie met 5x minder trainingsrekenkracht dan vergelijkbare methoden (zero-shot MS-COCO FID van 4.88). Na SFT kan CM3Leon ook ongekende niveaus van beheersbaarheid demonstreren in taken variërend van taalgestuurde beeldbewerking tot beeldgestuurde generatie en segmentatie.
English
We present CM3Leon (pronounced "Chameleon"), a retrieval-augmented,
token-based, decoder-only multi-modal language model capable of generating and
infilling both text and images. CM3Leon uses the CM3 multi-modal architecture
but additionally shows the extreme benefits of scaling up and tuning on more
diverse instruction-style data. It is the first multi-modal model trained with
a recipe adapted from text-only language models, including a large-scale
retrieval-augmented pre-training stage and a second multi-task supervised
fine-tuning (SFT) stage. It is also a general-purpose model that can do both
text-to-image and image-to-text generation, allowing us to introduce
self-contained contrastive decoding methods that produce high-quality outputs.
Extensive experiments demonstrate that this recipe is highly effective for
multi-modal models. CM3Leon achieves state-of-the-art performance in
text-to-image generation with 5x less training compute than comparable methods
(zero-shot MS-COCO FID of 4.88). After SFT, CM3Leon can also demonstrate
unprecedented levels of controllability in tasks ranging from language-guided
image editing to image-controlled generation and segmentation.