ChatPaper.aiChatPaper

MAGID : Un pipeline automatisé pour la génération de jeux de données synthétiques multi-modaux

MAGID: An Automated Pipeline for Generating Synthetic Multi-modal Datasets

March 5, 2024
Auteurs: Hossein Aboutalebi, Hwanjun Song, Yusheng Xie, Arshit Gupta, Justin Sun, Hang Su, Igor Shalyminov, Nikolaos Pappas, Siffi Singh, Saab Mansour
cs.AI

Résumé

Le développement de systèmes interactifs multimodaux est entravé par le manque de données conversationnelles riches et multimodales (texte, images), nécessaires en grande quantité pour les modèles de langage de grande taille (LLM). Les approches précédentes enrichissent les dialogues textuels avec des images récupérées, ce qui pose des contraintes en matière de confidentialité, de diversité et de qualité. Dans ce travail, nous introduisons Multimodal Augmented Generative Images Dialogues (MAGID), un cadre pour enrichir les dialogues textuels avec des images diversifiées et de haute qualité. Par la suite, un modèle de diffusion est appliqué pour créer des images correspondantes, en veillant à leur alignement avec le texte identifié. Enfin, MAGID intègre une boucle de rétroaction innovante entre un module de génération de descriptions d'images (LLM textuel) et des modules de qualité d'image (abordant l'esthétique, la correspondance image-texte et la sécurité), qui travaillent en tandem pour générer des dialogues multimodaux de haute qualité. Nous comparons MAGID à d'autres approches de pointe sur trois ensembles de données de dialogue, en utilisant des évaluations automatisées et humaines. Nos résultats montrent que MAGID est comparable ou supérieur aux approches de référence, avec des améliorations significatives dans l'évaluation humaine, en particulier contre les approches de récupération où la base de données d'images est limitée.
English
Development of multimodal interactive systems is hindered by the lack of rich, multimodal (text, images) conversational data, which is needed in large quantities for LLMs. Previous approaches augment textual dialogues with retrieved images, posing privacy, diversity, and quality constraints. In this work, we introduce Multimodal Augmented Generative Images Dialogues (MAGID), a framework to augment text-only dialogues with diverse and high-quality images. Subsequently, a diffusion model is applied to craft corresponding images, ensuring alignment with the identified text. Finally, MAGID incorporates an innovative feedback loop between an image description generation module (textual LLM) and image quality modules (addressing aesthetics, image-text matching, and safety), that work in tandem to generate high-quality and multi-modal dialogues. We compare MAGID to other SOTA baselines on three dialogue datasets, using automated and human evaluation. Our results show that MAGID is comparable to or better than baselines, with significant improvements in human evaluation, especially against retrieval baselines where the image database is small.
PDF151December 15, 2024