ChatPaper.aiChatPaper

MAGID: 다중 모달 합성 데이터셋 생성을 위한 자동화 파이프라인

MAGID: An Automated Pipeline for Generating Synthetic Multi-modal Datasets

March 5, 2024
저자: Hossein Aboutalebi, Hwanjun Song, Yusheng Xie, Arshit Gupta, Justin Sun, Hang Su, Igor Shalyminov, Nikolaos Pappas, Siffi Singh, Saab Mansour
cs.AI

초록

다양한 양의 대화 데이터가 필요한 대형 언어 모델(LLM)을 위해 텍스트와 이미지 등 다중 양식의 풍부한 대화 데이터가 부족함으로 인해 다중 양식 상호작용 시스템의 개발이 지연되고 있다. 기존의 접근 방식은 검색된 이미지를 텍스트 대화에 추가하는 방식으로, 이는 개인정보 보호, 다양성, 품질 등의 제약을 초래한다. 본 연구에서는 텍스트 전용 대화에 다양하고 고품질의 이미지를 추가하기 위한 프레임워크인 다중 양식 증강 생성 이미지 대화(MAGID)를 소개한다. 이후, 확산 모델을 적용하여 식별된 텍스트와 일치하는 이미지를 제작한다. 마지막으로, MAGID는 이미지 설명 생성 모듈(텍스트 LLM)과 이미지 품질 모듈(미학, 이미지-텍스트 일치, 안전성 처리) 간의 혁신적인 피드백 루프를 통합하여 고품질의 다중 양식 대화를 생성한다. MAGID를 세 가지 대화 데이터셋에서 다른 최첨단(SOTA) 베이스라인과 비교하여 자동화 평가와 인간 평가를 수행하였다. 그 결과, MAGID는 베이스라인과 비슷하거나 더 나은 성능을 보였으며, 특히 이미지 데이터베이스가 작은 검색 베이스라인에 비해 인간 평가에서 상당한 개선을 보였다.
English
Development of multimodal interactive systems is hindered by the lack of rich, multimodal (text, images) conversational data, which is needed in large quantities for LLMs. Previous approaches augment textual dialogues with retrieved images, posing privacy, diversity, and quality constraints. In this work, we introduce Multimodal Augmented Generative Images Dialogues (MAGID), a framework to augment text-only dialogues with diverse and high-quality images. Subsequently, a diffusion model is applied to craft corresponding images, ensuring alignment with the identified text. Finally, MAGID incorporates an innovative feedback loop between an image description generation module (textual LLM) and image quality modules (addressing aesthetics, image-text matching, and safety), that work in tandem to generate high-quality and multi-modal dialogues. We compare MAGID to other SOTA baselines on three dialogue datasets, using automated and human evaluation. Our results show that MAGID is comparable to or better than baselines, with significant improvements in human evaluation, especially against retrieval baselines where the image database is small.
PDF151December 15, 2024