ChatPaper.aiChatPaper

MAGID: Una Canalización Automatizada para la Generación de Conjuntos de Datos Sintéticos Multimodales

MAGID: An Automated Pipeline for Generating Synthetic Multi-modal Datasets

March 5, 2024
Autores: Hossein Aboutalebi, Hwanjun Song, Yusheng Xie, Arshit Gupta, Justin Sun, Hang Su, Igor Shalyminov, Nikolaos Pappas, Siffi Singh, Saab Mansour
cs.AI

Resumen

El desarrollo de sistemas interactivos multimodales se ve obstaculizado por la falta de datos conversacionales ricos y multimodales (texto, imágenes), que son necesarios en grandes cantidades para los LLM (Modelos de Lenguaje de Gran Escala). Enfoques anteriores aumentan diálogos textuales con imágenes recuperadas, lo que plantea limitaciones en términos de privacidad, diversidad y calidad. En este trabajo, presentamos Multimodal Augmented Generative Images Dialogues (MAGID), un marco para enriquecer diálogos exclusivamente textuales con imágenes diversas y de alta calidad. Posteriormente, se aplica un modelo de difusión para crear imágenes correspondientes, asegurando su alineación con el texto identificado. Finalmente, MAGID incorpora un bucle de retroalimentación innovador entre un módulo de generación de descripciones de imágenes (LLM textual) y módulos de calidad de imágenes (que abordan estética, coincidencia imagen-texto y seguridad), que trabajan en conjunto para generar diálogos multimodales de alta calidad. Comparamos MAGID con otros baselines de última generación en tres conjuntos de datos de diálogos, utilizando evaluaciones automáticas y humanas. Nuestros resultados muestran que MAGID es comparable o superior a los baselines, con mejoras significativas en la evaluación humana, especialmente frente a baselines de recuperación donde la base de datos de imágenes es pequeña.
English
Development of multimodal interactive systems is hindered by the lack of rich, multimodal (text, images) conversational data, which is needed in large quantities for LLMs. Previous approaches augment textual dialogues with retrieved images, posing privacy, diversity, and quality constraints. In this work, we introduce Multimodal Augmented Generative Images Dialogues (MAGID), a framework to augment text-only dialogues with diverse and high-quality images. Subsequently, a diffusion model is applied to craft corresponding images, ensuring alignment with the identified text. Finally, MAGID incorporates an innovative feedback loop between an image description generation module (textual LLM) and image quality modules (addressing aesthetics, image-text matching, and safety), that work in tandem to generate high-quality and multi-modal dialogues. We compare MAGID to other SOTA baselines on three dialogue datasets, using automated and human evaluation. Our results show that MAGID is comparable to or better than baselines, with significant improvements in human evaluation, especially against retrieval baselines where the image database is small.
PDF151December 15, 2024