ChatPaper.aiChatPaper

Mise à l'échelle des modèles multimodaux autorégressifs : Prétraitement et réglage par instruction

Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning

September 5, 2023
Auteurs: Lili Yu, Bowen Shi, Ramakanth Pasunuru, Benjamin Muller, Olga Golovneva, Tianlu Wang, Arun Babu, Binh Tang, Brian Karrer, Shelly Sheynin, Candace Ross, Adam Polyak, Russell Howes, Vasu Sharma, Puxin Xu, Hovhannes Tamoyan, Oron Ashual, Uriel Singer, Shang-Wen Li, Susan Zhang, Richard James, Gargi Ghosh, Yaniv Taigman, Maryam Fazel-Zarandi, Asli Celikyilmaz, Luke Zettlemoyer, Armen Aghajanyan
cs.AI

Résumé

Nous présentons CM3Leon (prononcé "Caméléon"), un modèle de langage multimodal basé sur des tokens, à décodeur unique et augmenté par recherche, capable de générer et de compléter à la fois du texte et des images. CM3Leon utilise l'architecture multimodale CM3, mais démontre en plus les avantages considérables d'une mise à l'échelle et d'un ajustement sur des données d'instructions plus diversifiées. Il s'agit du premier modèle multimodal entraîné selon une méthode adaptée des modèles de langage textuels uniquement, incluant une étape de pré-entraînement à grande échelle augmentée par recherche et une seconde étape de fine-tuning supervisé multitâche (SFT). C'est également un modèle à usage général qui peut effectuer à la fois la génération de texte à partir d'images et d'images à partir de texte, nous permettant d'introduire des méthodes de décodage contrastif autonomes produisant des résultats de haute qualité. Des expériences approfondies montrent que cette méthode est très efficace pour les modèles multimodaux. CM3Leon atteint des performances de pointe en génération d'images à partir de texte avec 5 fois moins de calcul d'entraînement que les méthodes comparables (FID zero-shot MS-COCO de 4,88). Après le SFT, CM3Leon peut également démontrer des niveaux de contrôlabilité sans précédent dans des tâches allant de l'édition d'images guidée par le langage à la génération et à la segmentation contrôlées par l'image.
English
We present CM3Leon (pronounced "Chameleon"), a retrieval-augmented, token-based, decoder-only multi-modal language model capable of generating and infilling both text and images. CM3Leon uses the CM3 multi-modal architecture but additionally shows the extreme benefits of scaling up and tuning on more diverse instruction-style data. It is the first multi-modal model trained with a recipe adapted from text-only language models, including a large-scale retrieval-augmented pre-training stage and a second multi-task supervised fine-tuning (SFT) stage. It is also a general-purpose model that can do both text-to-image and image-to-text generation, allowing us to introduce self-contained contrastive decoding methods that produce high-quality outputs. Extensive experiments demonstrate that this recipe is highly effective for multi-modal models. CM3Leon achieves state-of-the-art performance in text-to-image generation with 5x less training compute than comparable methods (zero-shot MS-COCO FID of 4.88). After SFT, CM3Leon can also demonstrate unprecedented levels of controllability in tasks ranging from language-guided image editing to image-controlled generation and segmentation.
PDF151December 15, 2024