MAGID: Een geautomatiseerde pijplijn voor het genereren van synthetische multimodale datasets
MAGID: An Automated Pipeline for Generating Synthetic Multi-modal Datasets
March 5, 2024
Auteurs: Hossein Aboutalebi, Hwanjun Song, Yusheng Xie, Arshit Gupta, Justin Sun, Hang Su, Igor Shalyminov, Nikolaos Pappas, Siffi Singh, Saab Mansour
cs.AI
Samenvatting
De ontwikkeling van multimodale interactieve systemen wordt belemmerd door het gebrek aan rijke, multimodale (tekst, afbeeldingen) conversatiegegevens, die in grote hoeveelheden nodig zijn voor LLM's (Large Language Models). Eerdere benaderingen verrijken tekstuele dialogen met opgehaalde afbeeldingen, wat privacy-, diversiteits- en kwaliteitsbeperkingen met zich meebrengt. In dit werk introduceren we Multimodal Augmented Generative Images Dialogues (MAGID), een raamwerk om tekstuele dialogen te verrijken met diverse en hoogwaardige afbeeldingen. Vervolgens wordt een diffusiemodel toegepast om bijbehorende afbeeldingen te maken, waarbij wordt gezorgd voor afstemming met de geïdentificeerde tekst. Ten slotte integreert MAGID een innovatieve feedbacklus tussen een module voor het genereren van afbeeldingsbeschrijvingen (tekstuele LLM) en modules voor afbeeldingskwaliteit (gericht op esthetiek, afbeelding-tekst matching en veiligheid), die samenwerken om hoogwaardige en multimodale dialogen te genereren. We vergelijken MAGID met andere state-of-the-art (SOTA) baselines op drie dialoogdatasets, waarbij gebruik wordt gemaakt van geautomatiseerde en menselijke evaluatie. Onze resultaten laten zien dat MAGID vergelijkbaar is met of beter presteert dan de baselines, met significante verbeteringen in de menselijke evaluatie, vooral tegen retrieval baselines waarbij de afbeeldingsdatabase klein is.
English
Development of multimodal interactive systems is hindered by the lack of
rich, multimodal (text, images) conversational data, which is needed in large
quantities for LLMs. Previous approaches augment textual dialogues with
retrieved images, posing privacy, diversity, and quality constraints. In this
work, we introduce Multimodal Augmented Generative
Images Dialogues (MAGID), a framework to augment text-only
dialogues with diverse and high-quality images. Subsequently, a diffusion model
is applied to craft corresponding images, ensuring alignment with the
identified text. Finally, MAGID incorporates an innovative feedback loop
between an image description generation module (textual LLM) and image quality
modules (addressing aesthetics, image-text matching, and safety), that work in
tandem to generate high-quality and multi-modal dialogues. We compare MAGID to
other SOTA baselines on three dialogue datasets, using automated and human
evaluation. Our results show that MAGID is comparable to or better than
baselines, with significant improvements in human evaluation, especially
against retrieval baselines where the image database is small.