ImagenWorld: 개방형 실세계 과제에서 설명 가능한 인간 평가를 통한 이미지 생성 모델 스트레스 테스트
ImagenWorld: Stress-Testing Image Generation Models with Explainable Human Evaluation on Open-ended Real-World Tasks
March 29, 2026
저자: Samin Mahdizadeh Sani, Max Ku, Nima Jamali, Matina Mahdizadeh Sani, Paria Khoshtab, Wei-Chieh Sun, Parnian Fazel, Zhi Rui Tam, Thomas Chong, Edisy Kin Wai Chan, Donald Wai Tong Tsang, Chiao-Wei Hsu, Ting Wai Lam, Ho Yin Sam Ng, Chiafeng Chu, Chak-Wing Mak, Keming Wu, Hiu Tung Wong, Yik Chun Ho, Chi Ruan, Zhuofeng Li, I-Sheng Fang, Shih-Ying Yeh, Ho Kei Cheng, Ping Nie, Wenhu Chen
cs.AI
초록
확산 모델, 자기회귀 모델 및 하이브리드 모델의 발전으로 텍스트-이미지 변환, 편집, 참조 기반 합성과 같은 작업에서 고품질 이미지 합성이 가능해졌습니다. 그러나 기존 벤치마크는 여전히 제한적이며, 고립된 작업에만 초점을 맞추거나 좁은 도메인만을 다루거나, 실패 모드를 설명하지 않은 불명확한 점수만을 제공하는 한계가 있습니다. 본 연구에서는 6가지 핵심 작업(단일 또는 다중 참조를 활용한 생성 및 편집)과 6가지 주제 도메인(예술 작품, 사실적 사진, 정보 그래픽, 텍스트 그래픽, 컴퓨터 그래픽, 스크린샷)을 아우르는 3,600개의 조건 세트로 구성된 벤치마크인 ImagenWorld를 소개합니다. 이 벤치마크는 2만 개의 세분화된 인간 평가 주석과, 객체 수준 및 세그먼트 수준의 지역화된 오류에 태그를 지정하는 설명 가능한 평가 체계로 지원되며, 자동화된 VLM 기반 지표를 보완합니다. 14개 모델에 대한 대규모 평가를 통해 몇 가지 통찰을 얻었습니다: (1) 모델은 일반적으로 생성 작업보다 편집 작업, 특히 지역 편집에서 더 어려움을 겪습니다. (2) 모델은 예술적 및 사실적 설정에서는 뛰어나지만, 스크린샷 및 정보 그래픽과 같은 상징적이고 텍스트가 많은 도메인에서는 취약합니다. (3) 클로즈드소스 시스템이 전반적으로 우세하지만, 표적 데이터 큐레이션(예: Qwen-Image)을 통해 텍스트 중심 경우의 격차를 줄일 수 있습니다. (4) 현대적인 VLM 기반 지표는 최대 0.79의 켄달 정확도로 인간 평가 순위에 근접하지만, 세분화되고 설명 가능한 오류 귀속 분석에는 미치지 못합니다. ImagenWorld는 강건한 이미지 생성을 발전시키기 위한 엄격한 벤치마크이자 진단 도구를 제공합니다.
English
Advances in diffusion, autoregressive, and hybrid models have enabled high-quality image synthesis for tasks such as text-to-image, editing, and reference-guided composition. Yet, existing benchmarks remain limited, either focus on isolated tasks, cover only narrow domains, or provide opaque scores without explaining failure modes. We introduce ImagenWorld, a benchmark of 3.6K condition sets spanning six core tasks (generation and editing, with single or multiple references) and six topical domains (artworks, photorealistic images, information graphics, textual graphics, computer graphics, and screenshots). The benchmark is supported by 20K fine-grained human annotations and an explainable evaluation schema that tags localized object-level and segment-level errors, complementing automated VLM-based metrics. Our large-scale evaluation of 14 models yields several insights: (1) models typically struggle more in editing tasks than in generation tasks, especially in local edits. (2) models excel in artistic and photorealistic settings but struggle with symbolic and text-heavy domains such as screenshots and information graphics. (3) closed-source systems lead overall, while targeted data curation (e.g., Qwen-Image) narrows the gap in text-heavy cases. (4) modern VLM-based metrics achieve Kendall accuracies up to 0.79, approximating human ranking, but fall short of fine-grained, explainable error attribution. ImagenWorld provides both a rigorous benchmark and a diagnostic tool to advance robust image generation.