Treinamento Conjunto de Grandes Modelos Multimodais Autoregressivos
Jointly Training Large Autoregressive Multimodal Models
September 27, 2023
Autores: Emanuele Aiello, Lili Yu, Yixin Nie, Armen Aghajanyan, Barlas Oguz
cs.AI
Resumo
Nos últimos anos, os avanços no pré-treinamento em larga escala de modelos de linguagem e de texto para imagem revolucionaram o campo do aprendizado de máquina. No entanto, integrar essas duas modalidades em um único modelo robusto, capaz de gerar saídas multimodais perfeitas, continua sendo um desafio significativo. Para abordar essa lacuna, apresentamos o framework Joint Autoregressive Mixture (JAM), uma abordagem modular que integra sistematicamente modelos existentes de geração de texto e imagem. Também introduzimos uma estratégia especializada e eficiente em dados de ajuste por instrução, projetada especificamente para tarefas de geração multimodais. Nosso modelo final ajustado por instrução demonstra desempenho incomparável na geração de saídas multimodais de alta qualidade e representa o primeiro modelo explicitamente projetado para esse propósito.
English
In recent years, advances in the large-scale pretraining of language and
text-to-image models have revolutionized the field of machine learning. Yet,
integrating these two modalities into a single, robust model capable of
generating seamless multimodal outputs remains a significant challenge. To
address this gap, we present the Joint Autoregressive Mixture (JAM) framework,
a modular approach that systematically fuses existing text and image generation
models. We also introduce a specialized, data-efficient instruction-tuning
strategy, tailored for mixed-modal generation tasks. Our final instruct-tuned
model demonstrates unparalleled performance in generating high-quality
multimodal outputs and represents the first model explicitly designed for this
purpose.