ChatPaper.aiChatPaper

Масштабирование авторегрессивных мультимодальных моделей: предварительное обучение и настройка по инструкциям

Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning

September 5, 2023
Авторы: Lili Yu, Bowen Shi, Ramakanth Pasunuru, Benjamin Muller, Olga Golovneva, Tianlu Wang, Arun Babu, Binh Tang, Brian Karrer, Shelly Sheynin, Candace Ross, Adam Polyak, Russell Howes, Vasu Sharma, Puxin Xu, Hovhannes Tamoyan, Oron Ashual, Uriel Singer, Shang-Wen Li, Susan Zhang, Richard James, Gargi Ghosh, Yaniv Taigman, Maryam Fazel-Zarandi, Asli Celikyilmaz, Luke Zettlemoyer, Armen Aghajanyan
cs.AI

Аннотация

Мы представляем CM3Leon (произносится как "Хамелеон") — мультимодальную языковую модель, основанную на извлечении данных, работающую с токенами и использующую только декодер, которая способна генерировать и заполнять как текст, так и изображения. CM3Leon использует мультимодальную архитектуру CM3, но также демонстрирует значительные преимущества масштабирования и настройки на более разнообразных данных в стиле инструкций. Это первая мультимодальная модель, обученная по методике, адаптированной из моделей, работающих исключительно с текстом, включая этап масштабного предварительного обучения с извлечением данных и второй этап многозадачного контролируемого тонкого настройки (SFT). Это также универсальная модель, способная выполнять как генерацию изображений из текста, так и генерацию текста из изображений, что позволяет нам внедрить самодостаточные методы контрастного декодирования, обеспечивающие высокое качество выходных данных. Многочисленные эксперименты показывают, что такой подход чрезвычайно эффективен для мультимодальных моделей. CM3Leon достигает наилучших результатов в генерации изображений из текста, используя в 5 раз меньше вычислительных ресурсов для обучения по сравнению с аналогичными методами (FID на MS-COCO в режиме zero-shot составляет 4,88). После SFT CM3Leon также демонстрирует беспрецедентный уровень управляемости в задачах, начиная от редактирования изображений с использованием языковых инструкций и заканчивая управляемой изображениями генерацией и сегментацией.
English
We present CM3Leon (pronounced "Chameleon"), a retrieval-augmented, token-based, decoder-only multi-modal language model capable of generating and infilling both text and images. CM3Leon uses the CM3 multi-modal architecture but additionally shows the extreme benefits of scaling up and tuning on more diverse instruction-style data. It is the first multi-modal model trained with a recipe adapted from text-only language models, including a large-scale retrieval-augmented pre-training stage and a second multi-task supervised fine-tuning (SFT) stage. It is also a general-purpose model that can do both text-to-image and image-to-text generation, allowing us to introduce self-contained contrastive decoding methods that produce high-quality outputs. Extensive experiments demonstrate that this recipe is highly effective for multi-modal models. CM3Leon achieves state-of-the-art performance in text-to-image generation with 5x less training compute than comparable methods (zero-shot MS-COCO FID of 4.88). After SFT, CM3Leon can also demonstrate unprecedented levels of controllability in tasks ranging from language-guided image editing to image-controlled generation and segmentation.
PDF151December 15, 2024