Gezamenlijk trainen van grote autoregressieve multimodale modellen
Jointly Training Large Autoregressive Multimodal Models
September 27, 2023
Auteurs: Emanuele Aiello, Lili Yu, Yixin Nie, Armen Aghajanyan, Barlas Oguz
cs.AI
Samenvatting
De afgelopen jaren hebben vooruitgangen in grootschalige voorafgaande training van taal- en tekst-naar-beeldmodellen een revolutie teweeggebracht in het veld van machine learning. Het integreren van deze twee modaliteiten in één robuust model dat naadloze multimodale uitvoer kan genereren, blijft echter een aanzienlijke uitdaging. Om deze kloof te overbruggen, presenteren we het Joint Autoregressive Mixture (JAM)-framework, een modulaire aanpak die bestaande tekst- en beeldgeneratiemodellen systematisch samenvoegt. We introduceren ook een gespecialiseerde, data-efficiënte instructie-afstemmingsstrategie, afgestemd op gemengde modale generatietaken. Ons uiteindelijke instructie-afgestemde model toont ongeëvenaarde prestaties in het genereren van hoogwaardige multimodale uitvoer en vertegenwoordigt het eerste model dat expliciet voor dit doel is ontworpen.
English
In recent years, advances in the large-scale pretraining of language and
text-to-image models have revolutionized the field of machine learning. Yet,
integrating these two modalities into a single, robust model capable of
generating seamless multimodal outputs remains a significant challenge. To
address this gap, we present the Joint Autoregressive Mixture (JAM) framework,
a modular approach that systematically fuses existing text and image generation
models. We also introduce a specialized, data-efficient instruction-tuning
strategy, tailored for mixed-modal generation tasks. Our final instruct-tuned
model demonstrates unparalleled performance in generating high-quality
multimodal outputs and represents the first model explicitly designed for this
purpose.