ImagenWorld: Teste de Estresse em Modelos de Geração de Imagens com Avaliação Humana Explicável em Tarefas Abertas do Mundo Real
ImagenWorld: Stress-Testing Image Generation Models with Explainable Human Evaluation on Open-ended Real-World Tasks
March 29, 2026
Autores: Samin Mahdizadeh Sani, Max Ku, Nima Jamali, Matina Mahdizadeh Sani, Paria Khoshtab, Wei-Chieh Sun, Parnian Fazel, Zhi Rui Tam, Thomas Chong, Edisy Kin Wai Chan, Donald Wai Tong Tsang, Chiao-Wei Hsu, Ting Wai Lam, Ho Yin Sam Ng, Chiafeng Chu, Chak-Wing Mak, Keming Wu, Hiu Tung Wong, Yik Chun Ho, Chi Ruan, Zhuofeng Li, I-Sheng Fang, Shih-Ying Yeh, Ho Kei Cheng, Ping Nie, Wenhu Chen
cs.AI
Resumo
Os avanços em modelos de difusão, autorregressivos e híbridos permitiram a síntese de imagens de alta qualidade para tarefas como texto-para-imagem, edição e composição guiada por referência. No entanto, os benchmarks existentes permanecem limitados, focando-se em tarefas isoladas, abrangendo apenas domínios restritos ou fornecendo pontuações opacas sem explicar os modos de falha. Apresentamos o ImagenWorld, um benchmark composto por 3.6 mil conjuntos de condições que abrangem seis tarefas principais (geração e edição, com referências únicas ou múltiplas) e seis domínios temáticos (obras de arte, imagens fotorrealistas, gráficos informativos, gráficos textuais, gráficos computacionais e capturas de ecrã). O benchmark é suportado por 20 mil anotações humanas detalhadas e um esquema de avaliação explicável que identifica erros localizados a nível de objeto e de segmento, complementando as métricas automatizadas baseadas em VLMs (Modelos de Linguagem Visual). Nossa avaliação em larga escala de 14 modelos produz vários insights: (1) os modelos geralmente têm mais dificuldade em tarefas de edição do que em tarefas de geração, especialmente em edições locais. (2) os modelos destacam-se em contextos artísticos e fotorrealistas, mas lutam com domínios simbólicos e ricos em texto, como capturas de ecrã e gráficos informativos. (3) os sistemas de código fechado lideram no geral, enquanto a curadoria de dados direcionada (por exemplo, Qwen-Image) reduz a diferença em casos ricos em texto. (4) as métricas modernas baseadas em VLMs alcançam correlações de Kendall de até 0.79, aproximando-se da classificação humana, mas ficam aquém na atribuição de erros explicável e detalhada. O ImagenWorld fornece tanto um benchmark rigoroso quanto uma ferramenta de diagnóstico para avançar a geração robusta de imagens.
English
Advances in diffusion, autoregressive, and hybrid models have enabled high-quality image synthesis for tasks such as text-to-image, editing, and reference-guided composition. Yet, existing benchmarks remain limited, either focus on isolated tasks, cover only narrow domains, or provide opaque scores without explaining failure modes. We introduce ImagenWorld, a benchmark of 3.6K condition sets spanning six core tasks (generation and editing, with single or multiple references) and six topical domains (artworks, photorealistic images, information graphics, textual graphics, computer graphics, and screenshots). The benchmark is supported by 20K fine-grained human annotations and an explainable evaluation schema that tags localized object-level and segment-level errors, complementing automated VLM-based metrics. Our large-scale evaluation of 14 models yields several insights: (1) models typically struggle more in editing tasks than in generation tasks, especially in local edits. (2) models excel in artistic and photorealistic settings but struggle with symbolic and text-heavy domains such as screenshots and information graphics. (3) closed-source systems lead overall, while targeted data curation (e.g., Qwen-Image) narrows the gap in text-heavy cases. (4) modern VLM-based metrics achieve Kendall accuracies up to 0.79, approximating human ranking, but fall short of fine-grained, explainable error attribution. ImagenWorld provides both a rigorous benchmark and a diagnostic tool to advance robust image generation.