MAGID: Una Pipeline Automatica per la Generazione di Dataset Sintetici Multi-modali
MAGID: An Automated Pipeline for Generating Synthetic Multi-modal Datasets
March 5, 2024
Autori: Hossein Aboutalebi, Hwanjun Song, Yusheng Xie, Arshit Gupta, Justin Sun, Hang Su, Igor Shalyminov, Nikolaos Pappas, Siffi Singh, Saab Mansour
cs.AI
Abstract
Lo sviluppo di sistemi interattivi multimodali è ostacolato dalla mancanza di dati conversazionali ricchi e multimodali (testo, immagini), necessari in grandi quantità per i modelli linguistici di grandi dimensioni (LLM). Approcci precedenti integrano dialoghi testuali con immagini recuperate, introducendo vincoli legati alla privacy, alla diversità e alla qualità. In questo lavoro, presentiamo Multimodal Augmented Generative Images Dialogues (MAGID), un framework progettato per arricchire dialoghi esclusivamente testuali con immagini diversificate e di alta qualità. Successivamente, viene applicato un modello di diffusione per generare immagini corrispondenti, garantendo l'allineamento con il testo identificato. Infine, MAGID incorpora un innovativo ciclo di feedback tra un modulo di generazione di descrizioni di immagini (LLM testuale) e moduli di qualità delle immagini (che affrontano estetica, corrispondenza immagine-testo e sicurezza), che lavorano in tandem per produrre dialoghi multimodali di alta qualità. Confrontiamo MAGID con altri baseline all'avanguardia su tre dataset di dialoghi, utilizzando valutazioni automatiche e umane. I nostri risultati dimostrano che MAGID è comparabile o superiore ai baseline, con miglioramenti significativi nella valutazione umana, specialmente rispetto ai baseline di recupero in cui il database di immagini è limitato.
English
Development of multimodal interactive systems is hindered by the lack of
rich, multimodal (text, images) conversational data, which is needed in large
quantities for LLMs. Previous approaches augment textual dialogues with
retrieved images, posing privacy, diversity, and quality constraints. In this
work, we introduce Multimodal Augmented Generative
Images Dialogues (MAGID), a framework to augment text-only
dialogues with diverse and high-quality images. Subsequently, a diffusion model
is applied to craft corresponding images, ensuring alignment with the
identified text. Finally, MAGID incorporates an innovative feedback loop
between an image description generation module (textual LLM) and image quality
modules (addressing aesthetics, image-text matching, and safety), that work in
tandem to generate high-quality and multi-modal dialogues. We compare MAGID to
other SOTA baselines on three dialogue datasets, using automated and human
evaluation. Our results show that MAGID is comparable to or better than
baselines, with significant improvements in human evaluation, especially
against retrieval baselines where the image database is small.