ChatPaper.aiChatPaper

MAGID: Eine automatisierte Pipeline zur Erzeugung synthetischer multimodaler Datensätze

MAGID: An Automated Pipeline for Generating Synthetic Multi-modal Datasets

March 5, 2024
Autoren: Hossein Aboutalebi, Hwanjun Song, Yusheng Xie, Arshit Gupta, Justin Sun, Hang Su, Igor Shalyminov, Nikolaos Pappas, Siffi Singh, Saab Mansour
cs.AI

Zusammenfassung

Die Entwicklung von multimodalen interaktiven Systemen wird durch den Mangel an umfangreichen, multimodalen (Text, Bilder) Konversationsdaten behindert, die in großen Mengen für große Sprachmodell (LLMs) benötigt werden. Frühere Ansätze erweitern textuelle Dialoge mit abgerufenen Bildern, was Datenschutz-, Diversitäts- und Qualitätsbeschränkungen mit sich bringt. In dieser Arbeit stellen wir Multimodal Augmented Generative Images Dialogues (MAGID) vor, ein Framework zur Erweiterung von rein textbasierten Dialogen mit vielfältigen und qualitativ hochwertigen Bildern. Anschließend wird ein Diffusionsmodell angewendet, um entsprechende Bilder zu erstellen, die eine Abstimmung mit dem identifizierten Text gewährleisten. Schließlich integriert MAGID eine innovative Rückkopplungsschleife zwischen einem Bildbeschreibungs-Generierungsmodul (textuelles LLM) und Bildqualitätsmodulen (die Ästhetik, Bild-Text-Abstimmung und Sicherheit behandeln), die zusammenarbeiten, um hochwertige und multimodale Dialoge zu generieren. Wir vergleichen MAGID mit anderen SOTA-Baselines auf drei Dialogdatensätzen unter Verwendung automatisierter und menschlicher Bewertung. Unsere Ergebnisse zeigen, dass MAGID mit Baselines vergleichbar oder besser ist, mit signifikanten Verbesserungen in der menschlichen Bewertung, insbesondere gegenüber Abruf-Baselines, bei denen die Bilddatenbank klein ist.
English
Development of multimodal interactive systems is hindered by the lack of rich, multimodal (text, images) conversational data, which is needed in large quantities for LLMs. Previous approaches augment textual dialogues with retrieved images, posing privacy, diversity, and quality constraints. In this work, we introduce Multimodal Augmented Generative Images Dialogues (MAGID), a framework to augment text-only dialogues with diverse and high-quality images. Subsequently, a diffusion model is applied to craft corresponding images, ensuring alignment with the identified text. Finally, MAGID incorporates an innovative feedback loop between an image description generation module (textual LLM) and image quality modules (addressing aesthetics, image-text matching, and safety), that work in tandem to generate high-quality and multi-modal dialogues. We compare MAGID to other SOTA baselines on three dialogue datasets, using automated and human evaluation. Our results show that MAGID is comparable to or better than baselines, with significant improvements in human evaluation, especially against retrieval baselines where the image database is small.
PDF151December 15, 2024