MAGID: Автоматизированный конвейер для создания синтетических мультимодальных наборов данных
MAGID: An Automated Pipeline for Generating Synthetic Multi-modal Datasets
March 5, 2024
Авторы: Hossein Aboutalebi, Hwanjun Song, Yusheng Xie, Arshit Gupta, Justin Sun, Hang Su, Igor Shalyminov, Nikolaos Pappas, Siffi Singh, Saab Mansour
cs.AI
Аннотация
Развитие мультимодальных интерактивных систем затруднено из-за отсутствия обширных, мультимодальных (текст, изображения) разговорных данных, необходимых в больших объемах для языковых моделей с ограниченной памятью. Предыдущие подходы дополняли текстовые диалоги полученными изображениями, что создавало проблемы с конфиденциальностью, разнообразием и качеством. В данной работе мы представляем Мультимодальные Дополненные Генеративные Изображения Диалоги (MAGID), фреймворк для дополнения исключительно текстовых диалогов разнообразными и качественными изображениями. Затем применяется модель диффузии для создания соответствующих изображений, обеспечивая их соответствие выделенному тексту. Наконец, MAGID включает инновационный обратный цикл между модулем генерации описания изображения (текстовая LLM) и модулями качества изображения (работающими над эстетикой, соответствием изображения и текста и безопасностью), которые совместно генерируют высококачественные и мультимодальные диалоги. Мы сравниваем MAGID с другими передовыми базовыми моделями на трех наборах данных диалогов с использованием автоматической и человеческой оценки. Наши результаты показывают, что MAGID сравним или превосходит базовые модели, существенно улучшая человеческую оценку, особенно по сравнению с базовыми моделями извлечения, где база данных изображений небольшая.
English
Development of multimodal interactive systems is hindered by the lack of
rich, multimodal (text, images) conversational data, which is needed in large
quantities for LLMs. Previous approaches augment textual dialogues with
retrieved images, posing privacy, diversity, and quality constraints. In this
work, we introduce Multimodal Augmented Generative
Images Dialogues (MAGID), a framework to augment text-only
dialogues with diverse and high-quality images. Subsequently, a diffusion model
is applied to craft corresponding images, ensuring alignment with the
identified text. Finally, MAGID incorporates an innovative feedback loop
between an image description generation module (textual LLM) and image quality
modules (addressing aesthetics, image-text matching, and safety), that work in
tandem to generate high-quality and multi-modal dialogues. We compare MAGID to
other SOTA baselines on three dialogue datasets, using automated and human
evaluation. Our results show that MAGID is comparable to or better than
baselines, with significant improvements in human evaluation, especially
against retrieval baselines where the image database is small.