ChatPaper.aiChatPaper

Gemeinsames Training großer autoregressiver multimodaler Modelle

Jointly Training Large Autoregressive Multimodal Models

September 27, 2023
Autoren: Emanuele Aiello, Lili Yu, Yixin Nie, Armen Aghajanyan, Barlas Oguz
cs.AI

Zusammenfassung

In den letzten Jahren haben Fortschritte im groß angelegten Vortraining von Sprach- und Text-zu-Bild-Modellen das Feld des maschinellen Lernens revolutioniert. Dennoch bleibt die Integration dieser beiden Modalitäten in ein einziges, robustes Modell, das nahtlose multimodale Ausgaben erzeugen kann, eine erhebliche Herausforderung. Um diese Lücke zu schließen, präsentieren wir das Joint Autoregressive Mixture (JAM)-Framework, einen modularen Ansatz, der bestehende Text- und Bildgenerierungsmodelle systematisch fusioniert. Wir führen außerdem eine spezialisierte, dateneffiziente Instruction-Tuning-Strategie ein, die auf gemischt-modale Generierungsaufgaben zugeschnitten ist. Unser finales instruct-getuntes Modell zeigt eine beispiellose Leistung bei der Erzeugung hochwertiger multimodaler Ausgaben und stellt das erste Modell dar, das explizit für diesen Zweck entwickelt wurde.
English
In recent years, advances in the large-scale pretraining of language and text-to-image models have revolutionized the field of machine learning. Yet, integrating these two modalities into a single, robust model capable of generating seamless multimodal outputs remains a significant challenge. To address this gap, we present the Joint Autoregressive Mixture (JAM) framework, a modular approach that systematically fuses existing text and image generation models. We also introduce a specialized, data-efficient instruction-tuning strategy, tailored for mixed-modal generation tasks. Our final instruct-tuned model demonstrates unparalleled performance in generating high-quality multimodal outputs and represents the first model explicitly designed for this purpose.
PDF81December 15, 2024