Gemeinsames Training großer autoregressiver multimodaler Modelle
Jointly Training Large Autoregressive Multimodal Models
September 27, 2023
Autoren: Emanuele Aiello, Lili Yu, Yixin Nie, Armen Aghajanyan, Barlas Oguz
cs.AI
Zusammenfassung
In den letzten Jahren haben Fortschritte im groß angelegten Vortraining von Sprach- und Text-zu-Bild-Modellen das Feld des maschinellen Lernens revolutioniert. Dennoch bleibt die Integration dieser beiden Modalitäten in ein einziges, robustes Modell, das nahtlose multimodale Ausgaben erzeugen kann, eine erhebliche Herausforderung. Um diese Lücke zu schließen, präsentieren wir das Joint Autoregressive Mixture (JAM)-Framework, einen modularen Ansatz, der bestehende Text- und Bildgenerierungsmodelle systematisch fusioniert. Wir führen außerdem eine spezialisierte, dateneffiziente Instruction-Tuning-Strategie ein, die auf gemischt-modale Generierungsaufgaben zugeschnitten ist. Unser finales instruct-getuntes Modell zeigt eine beispiellose Leistung bei der Erzeugung hochwertiger multimodaler Ausgaben und stellt das erste Modell dar, das explizit für diesen Zweck entwickelt wurde.
English
In recent years, advances in the large-scale pretraining of language and
text-to-image models have revolutionized the field of machine learning. Yet,
integrating these two modalities into a single, robust model capable of
generating seamless multimodal outputs remains a significant challenge. To
address this gap, we present the Joint Autoregressive Mixture (JAM) framework,
a modular approach that systematically fuses existing text and image generation
models. We also introduce a specialized, data-efficient instruction-tuning
strategy, tailored for mixed-modal generation tasks. Our final instruct-tuned
model demonstrates unparalleled performance in generating high-quality
multimodal outputs and represents the first model explicitly designed for this
purpose.