ChatPaper.aiChatPaper

커먼센스-T2I 챌린지: 텍스트-이미지 생성 모델은 커먼센스를 이해할 수 있는가?

Commonsense-T2I Challenge: Can Text-to-Image Generation Models Understand Commonsense?

June 11, 2024
저자: Xingyu Fu, Muyu He, Yujie Lu, William Yang Wang, Dan Roth
cs.AI

초록

우리는 텍스트-이미지(T2I) 생성 모델이 실생활의 상식을 반영한 이미지를 생성할 수 있는 능력을 평가하기 위한 새로운 과제와 벤치마크를 제안하며, 이를 Commonsense-T2I라고 명명합니다. "전기가 없는 전구" vs. "전기가 있는 전구"와 같이 동일한 동사 집합을 포함하지만 미묘한 차이가 있는 두 개의 적대적 텍스트 프롬프트가 주어졌을 때, T2I 모델이 시각적 상식 추론을 수행할 수 있는지 평가합니다. 예를 들어, "전구가 꺼져 있다" vs. "전구가 켜져 있다"에 맞는 이미지를 생성할 수 있는지를 확인합니다. Commonsense-T2I는 적대적 도전 과제를 제시하며, 쌍으로 구성된 텍스트 프롬프트와 예상 출력을 제공합니다. 이 데이터셋은 전문가들이 신중하게 수작업으로 선별하고, 상식 유형 및 예상 출력의 가능성과 같은 세분화된 레이블로 주석 처리되어 모델 동작 분석을 지원합니다. 우리는 다양한 최신 T2I 모델을 벤치마크했으며, 놀랍게도 이미지 합성과 실생활 사진 간에는 여전히 큰 격차가 있음을 발견했습니다. 심지어 DALL-E 3 모델도 Commonsense-T2I에서 48.92%에 그쳤으며, Stable Diffusion XL 모델은 24.92%의 정확도만 달성했습니다. 우리의 실험은 GPT로 강화된 프롬프트가 이 도전 과제를 해결할 수 없음을 보여주며, 이러한 결핍의 가능한 원인에 대한 상세한 분석을 포함합니다. 우리는 Commonsense-T2I가 T2I 상식 검사를 위한 고품질 평가 벤치마크로 활용되어 실생활 이미지 생성의 발전을 촉진하기를 기대합니다.
English
We present a novel task and benchmark for evaluating the ability of text-to-image(T2I) generation models to produce images that fit commonsense in real life, which we call Commonsense-T2I. Given two adversarial text prompts containing an identical set of action words with minor differences, such as "a lightbulb without electricity" v.s. "a lightbulb with electricity", we evaluate whether T2I models can conduct visual-commonsense reasoning, e.g. produce images that fit "the lightbulb is unlit" vs. "the lightbulb is lit" correspondingly. Commonsense-T2I presents an adversarial challenge, providing pairwise text prompts along with expected outputs. The dataset is carefully hand-curated by experts and annotated with fine-grained labels, such as commonsense type and likelihood of the expected outputs, to assist analyzing model behavior. We benchmark a variety of state-of-the-art (sota) T2I models and surprisingly find that, there is still a large gap between image synthesis and real life photos--even the DALL-E 3 model could only achieve 48.92% on Commonsense-T2I, and the stable diffusion XL model only achieves 24.92% accuracy. Our experiments show that GPT-enriched prompts cannot solve this challenge, and we include a detailed analysis about possible reasons for such deficiency. We aim for Commonsense-T2I to serve as a high-quality evaluation benchmark for T2I commonsense checking, fostering advancements in real life image generation.

Summary

AI-Generated Summary

PDF91December 6, 2024