Entraînement conjoint de grands modèles multimodaux autorégressifs
Jointly Training Large Autoregressive Multimodal Models
September 27, 2023
Auteurs: Emanuele Aiello, Lili Yu, Yixin Nie, Armen Aghajanyan, Barlas Oguz
cs.AI
Résumé
Ces dernières années, les avancées dans le pré-entraînement à grande échelle des modèles de langage et de génération texte-image ont révolutionné le domaine de l'apprentissage automatique. Cependant, l'intégration de ces deux modalités dans un modèle unique et robuste capable de produire des sorties multimodales fluides reste un défi majeur. Pour combler cette lacune, nous présentons le cadre Joint Autoregressive Mixture (JAM), une approche modulaire qui fusionne systématiquement les modèles existants de génération de texte et d'images. Nous introduisons également une stratégie spécialisée d'ajustement par instruction, efficace en termes de données, conçue pour les tâches de génération multimodale mixte. Notre modèle final, ajusté par instruction, démontre des performances inégalées dans la génération de sorties multimodales de haute qualité et représente le premier modèle explicitement conçu à cet effet.
English
In recent years, advances in the large-scale pretraining of language and
text-to-image models have revolutionized the field of machine learning. Yet,
integrating these two modalities into a single, robust model capable of
generating seamless multimodal outputs remains a significant challenge. To
address this gap, we present the Joint Autoregressive Mixture (JAM) framework,
a modular approach that systematically fuses existing text and image generation
models. We also introduce a specialized, data-efficient instruction-tuning
strategy, tailored for mixed-modal generation tasks. Our final instruct-tuned
model demonstrates unparalleled performance in generating high-quality
multimodal outputs and represents the first model explicitly designed for this
purpose.