Addestramento Congiunto di Grandi Modelli Multimodali Autoregressivi

Abstract

Negli ultimi anni, i progressi nel pre-addestramento su larga scala di modelli linguistici e di testo-immagine hanno rivoluzionato il campo del machine learning. Tuttavia, integrare queste due modalità in un unico modello robusto in grado di generare output multimodali senza soluzione di continuità rimane una sfida significativa. Per colmare questa lacuna, presentiamo il framework Joint Autoregressive Mixture (JAM), un approccio modulare che fonde sistematicamente i modelli esistenti di generazione di testo e immagini. Introduciamo inoltre una strategia specializzata e efficiente in termini di dati per l'instruction-tuning, progettata specificamente per compiti di generazione multimodale. Il nostro modello finale, ottimizzato tramite instruction-tuning, dimostra prestazioni senza precedenti nella generazione di output multimodali di alta qualità e rappresenta il primo modello esplicitamente progettato per questo scopo.

English

In recent years, advances in the large-scale pretraining of language and text-to-image models have revolutionized the field of machine learning. Yet, integrating these two modalities into a single, robust model capable of generating seamless multimodal outputs remains a significant challenge. To address this gap, we present the Joint Autoregressive Mixture (JAM) framework, a modular approach that systematically fuses existing text and image generation models. We also introduce a specialized, data-efficient instruction-tuning strategy, tailored for mixed-modal generation tasks. Our final instruct-tuned model demonstrates unparalleled performance in generating high-quality multimodal outputs and represents the first model explicitly designed for this purpose.

Addestramento Congiunto di Grandi Modelli Multimodali Autoregressivi

Jointly Training Large Autoregressive Multimodal Models

Abstract

Support