MAGID: Um Pipeline Automatizado para Geração de Conjuntos de Dados Sintéticos Multimodais
MAGID: An Automated Pipeline for Generating Synthetic Multi-modal Datasets
March 5, 2024
Autores: Hossein Aboutalebi, Hwanjun Song, Yusheng Xie, Arshit Gupta, Justin Sun, Hang Su, Igor Shalyminov, Nikolaos Pappas, Siffi Singh, Saab Mansour
cs.AI
Resumo
O desenvolvimento de sistemas interativos multimodais é dificultado pela falta de dados conversacionais ricos e multimodais (texto, imagens), que são necessários em grandes quantidades para LLMs (Modelos de Linguagem de Grande Escala). Abordagens anteriores aumentam diálogos textuais com imagens recuperadas, impondo restrições de privacidade, diversidade e qualidade. Neste trabalho, introduzimos o Multimodal Augmented Generative Images Dialogues (MAGID), um framework para aumentar diálogos exclusivamente textuais com imagens diversas e de alta qualidade. Posteriormente, um modelo de difusão é aplicado para criar imagens correspondentes, garantindo alinhamento com o texto identificado. Por fim, o MAGID incorpora um loop de feedback inovador entre um módulo de geração de descrição de imagens (LLM textual) e módulos de qualidade de imagem (abordando estética, correspondência imagem-texto e segurança), que trabalham em conjunto para gerar diálogos multimodais de alta qualidade. Comparamos o MAGID a outras baselines state-of-the-art (SOTA) em três conjuntos de dados de diálogo, utilizando avaliação automática e humana. Nossos resultados mostram que o MAGID é comparável ou superior às baselines, com melhorias significativas na avaliação humana, especialmente contra baselines de recuperação onde o banco de dados de imagens é pequeno.
English
Development of multimodal interactive systems is hindered by the lack of
rich, multimodal (text, images) conversational data, which is needed in large
quantities for LLMs. Previous approaches augment textual dialogues with
retrieved images, posing privacy, diversity, and quality constraints. In this
work, we introduce Multimodal Augmented Generative
Images Dialogues (MAGID), a framework to augment text-only
dialogues with diverse and high-quality images. Subsequently, a diffusion model
is applied to craft corresponding images, ensuring alignment with the
identified text. Finally, MAGID incorporates an innovative feedback loop
between an image description generation module (textual LLM) and image quality
modules (addressing aesthetics, image-text matching, and safety), that work in
tandem to generate high-quality and multi-modal dialogues. We compare MAGID to
other SOTA baselines on three dialogue datasets, using automated and human
evaluation. Our results show that MAGID is comparable to or better than
baselines, with significant improvements in human evaluation, especially
against retrieval baselines where the image database is small.