Совместное обучение крупных авторегрессивных мультимодальных моделей
Jointly Training Large Autoregressive Multimodal Models
September 27, 2023
Авторы: Emanuele Aiello, Lili Yu, Yixin Nie, Armen Aghajanyan, Barlas Oguz
cs.AI
Аннотация
В последние годы достижения в области масштабного предварительного обучения языковых моделей и моделей преобразования текста в изображения произвели революцию в области машинного обучения. Однако интеграция этих двух модальностей в единую, устойчивую модель, способную генерировать бесшовные мультимодальные выходные данные, остается значительной проблемой. Для решения этой задачи мы представляем фреймворк Joint Autoregressive Mixture (JAM) — модульный подход, который систематически объединяет существующие модели генерации текста и изображений. Мы также предлагаем специализированную стратегию инструктивного тонкого обучения, ориентированную на задачи смешанной модальной генерации и эффективную в использовании данных. Наша итоговая модель, прошедшая инструктивное тонкое обучение, демонстрирует непревзойденную производительность в генерации высококачественных мультимодальных выходных данных и является первой моделью, специально разработанной для этой цели.
English
In recent years, advances in the large-scale pretraining of language and
text-to-image models have revolutionized the field of machine learning. Yet,
integrating these two modalities into a single, robust model capable of
generating seamless multimodal outputs remains a significant challenge. To
address this gap, we present the Joint Autoregressive Mixture (JAM) framework,
a modular approach that systematically fuses existing text and image generation
models. We also introduce a specialized, data-efficient instruction-tuning
strategy, tailored for mixed-modal generation tasks. Our final instruct-tuned
model demonstrates unparalleled performance in generating high-quality
multimodal outputs and represents the first model explicitly designed for this
purpose.