Entrenamiento Conjunto de Modelos Multimodales Autoregresivos de Gran Escala
Jointly Training Large Autoregressive Multimodal Models
September 27, 2023
Autores: Emanuele Aiello, Lili Yu, Yixin Nie, Armen Aghajanyan, Barlas Oguz
cs.AI
Resumen
En los últimos años, los avances en el preentrenamiento a gran escala de modelos de lenguaje y de texto a imagen han revolucionado el campo del aprendizaje automático. Sin embargo, integrar estas dos modalidades en un único modelo robusto capaz de generar salidas multimodales fluidas sigue siendo un desafío significativo. Para abordar esta brecha, presentamos el marco Joint Autoregressive Mixture (JAM), un enfoque modular que fusiona sistemáticamente modelos existentes de generación de texto e imágenes. También introducimos una estrategia especializada y eficiente en datos de ajuste por instrucciones, diseñada específicamente para tareas de generación multimodal mixta. Nuestro modelo final ajustado por instrucciones demuestra un rendimiento sin precedentes en la generación de salidas multimodales de alta calidad y representa el primer modelo explícitamente diseñado para este propósito.
English
In recent years, advances in the large-scale pretraining of language and
text-to-image models have revolutionized the field of machine learning. Yet,
integrating these two modalities into a single, robust model capable of
generating seamless multimodal outputs remains a significant challenge. To
address this gap, we present the Joint Autoregressive Mixture (JAM) framework,
a modular approach that systematically fuses existing text and image generation
models. We also introduce a specialized, data-efficient instruction-tuning
strategy, tailored for mixed-modal generation tasks. Our final instruct-tuned
model demonstrates unparalleled performance in generating high-quality
multimodal outputs and represents the first model explicitly designed for this
purpose.