Addestramento Congiunto di Grandi Modelli Multimodali Autoregressivi
Jointly Training Large Autoregressive Multimodal Models
September 27, 2023
Autori: Emanuele Aiello, Lili Yu, Yixin Nie, Armen Aghajanyan, Barlas Oguz
cs.AI
Abstract
Negli ultimi anni, i progressi nel pre-addestramento su larga scala di modelli linguistici e di testo-immagine hanno rivoluzionato il campo del machine learning. Tuttavia, integrare queste due modalità in un unico modello robusto in grado di generare output multimodali senza soluzione di continuità rimane una sfida significativa. Per colmare questa lacuna, presentiamo il framework Joint Autoregressive Mixture (JAM), un approccio modulare che fonde sistematicamente i modelli esistenti di generazione di testo e immagini. Introduciamo inoltre una strategia specializzata e efficiente in termini di dati per l'instruction-tuning, progettata specificamente per compiti di generazione multimodale. Il nostro modello finale, ottimizzato tramite instruction-tuning, dimostra prestazioni senza precedenti nella generazione di output multimodali di alta qualità e rappresenta il primo modello esplicitamente progettato per questo scopo.
English
In recent years, advances in the large-scale pretraining of language and
text-to-image models have revolutionized the field of machine learning. Yet,
integrating these two modalities into a single, robust model capable of
generating seamless multimodal outputs remains a significant challenge. To
address this gap, we present the Joint Autoregressive Mixture (JAM) framework,
a modular approach that systematically fuses existing text and image generation
models. We also introduce a specialized, data-efficient instruction-tuning
strategy, tailored for mixed-modal generation tasks. Our final instruct-tuned
model demonstrates unparalleled performance in generating high-quality
multimodal outputs and represents the first model explicitly designed for this
purpose.