ImagenWorld: Стресс-тестирование моделей генерации изображений с помощью объяснимой человеческой оценки на открытых реальных задачах
ImagenWorld: Stress-Testing Image Generation Models with Explainable Human Evaluation on Open-ended Real-World Tasks
March 29, 2026
Авторы: Samin Mahdizadeh Sani, Max Ku, Nima Jamali, Matina Mahdizadeh Sani, Paria Khoshtab, Wei-Chieh Sun, Parnian Fazel, Zhi Rui Tam, Thomas Chong, Edisy Kin Wai Chan, Donald Wai Tong Tsang, Chiao-Wei Hsu, Ting Wai Lam, Ho Yin Sam Ng, Chiafeng Chu, Chak-Wing Mak, Keming Wu, Hiu Tung Wong, Yik Chun Ho, Chi Ruan, Zhuofeng Li, I-Sheng Fang, Shih-Ying Yeh, Ho Kei Cheng, Ping Nie, Wenhu Chen
cs.AI
Аннотация
Достижения в области диффузионных, авторегрессионных и гибридных моделей обеспечили возможность синтеза изображений высокого качества для таких задач, как генерация по тексту, редактирование и композиция с опорой на референсы. Однако существующие бенчмарки остаются ограниченными: они либо фокусируются на изолированных задачах, либо охватывают узкие домены, либо предоставляют непрозрачные оценки без объяснения причин ошибок. Мы представляем ImagenWorld — бенчмарк, включающий 3.6 тыс. наборов условий, охватывающих шесть основных задач (генерация и редактирование с одиночными или множественными референсами) и шесть тематических доменов (произведения искусства, фотореалистичные изображения, информационная графика, текстовая графика, компьютерная графика и скриншоты). Бенчмарк поддерживается 20 тыс. детальных человеческих аннотаций и интерпретируемой схемой оценки, которая помечает локализованные ошибки на уровне объектов и сегментов, дополняя автоматизированные метрики на основе визуально-языковых моделей. Наша масштабная оценка 14 моделей выявила несколько ключевых insights: (1) модели обычно испытывают больше трудностей в задачах редактирования, чем в задачах генерации, особенно при локальных правках; (2) модели преуспевают в художественных и фотореалистичных доменах, но сталкиваются с трудностями в символьных и насыщенных текстом доменах, таких как скриншоты и информационная графика; (3) закрытые системы лидируют в целом, тогда как целевая курация данных (например, Qwen-Image) сокращает разрыв в текстоемких случаях; (4) современные метрики на основе VLM достигают точности Кендалла до 0.79, приближаясь к человеческому ранжированию, но уступают в детальной интерпретируемой атрибуции ошибок. ImagenWorld предоставляет как строгий бенчмарк, так и диагностический инструмент для развития надежной генерации изображений.
English
Advances in diffusion, autoregressive, and hybrid models have enabled high-quality image synthesis for tasks such as text-to-image, editing, and reference-guided composition. Yet, existing benchmarks remain limited, either focus on isolated tasks, cover only narrow domains, or provide opaque scores without explaining failure modes. We introduce ImagenWorld, a benchmark of 3.6K condition sets spanning six core tasks (generation and editing, with single or multiple references) and six topical domains (artworks, photorealistic images, information graphics, textual graphics, computer graphics, and screenshots). The benchmark is supported by 20K fine-grained human annotations and an explainable evaluation schema that tags localized object-level and segment-level errors, complementing automated VLM-based metrics. Our large-scale evaluation of 14 models yields several insights: (1) models typically struggle more in editing tasks than in generation tasks, especially in local edits. (2) models excel in artistic and photorealistic settings but struggle with symbolic and text-heavy domains such as screenshots and information graphics. (3) closed-source systems lead overall, while targeted data curation (e.g., Qwen-Image) narrows the gap in text-heavy cases. (4) modern VLM-based metrics achieve Kendall accuracies up to 0.79, approximating human ranking, but fall short of fine-grained, explainable error attribution. ImagenWorld provides both a rigorous benchmark and a diagnostic tool to advance robust image generation.