ImagenWorld: Pruebas de Estrés para Modelos de Generación de Imágenes con Evaluación Humana Explicable en Tareas Abiertas del Mundo Real

Resumen

Los avances en modelos de difusión, autorregresivos e híbridos han permitido una síntesis de imágenes de alta calidad para tareas como la generación de imágenes a partir de texto, la edición y la composición guiada por referencias. Sin embargo, los puntos de referencia existentes siguen siendo limitados: se centran en tareas aisladas, abarcan solo dominios reducidos o proporcionan puntuaciones opacas sin explicar los modos de fallo. Presentamos ImagenWorld, un punto de referencia de 3.600 conjuntos de condiciones que abarca seis tareas principales (generación y edición, con una o múltiples referencias) y seis dominios temáticos (obras de arte, imágenes fotorrealistas, gráficos de información, gráficos textuales, gráficos por ordenador y capturas de pantalla). El punto de referencia está respaldado por 20.000 anotaciones humanas detalladas y un esquema de evaluación explicable que etiqueta errores localizados a nivel de objeto y de segmento, complementando las métricas automáticas basadas en Modelos de Lenguaje Visual (VLM). Nuestra evaluación a gran escala de 14 modelos arroja varias conclusiones: (1) los modelos suelen tener más dificultades en las tareas de edición que en las de generación, especialmente en las ediciones locales. (2) los modelos sobresalen en entornos artísticos y fotorrealistas, pero luchan con dominios simbólicos y ricos en texto, como capturas de pantalla y gráficos de información. (3) los sistemas de código cerrado lideran en general, mientras que la curación de datos específica (por ejemplo, Qwen-Image) reduce la brecha en casos con mucho texto. (4) las métricas modernas basadas en VLM alcanzan precisiones de Kendall de hasta 0,79, aproximándose a la clasificación humana, pero se quedan cortas en la atribución de errores detallada y explicable. ImagenWorld proporciona tanto un punto de referencia riguroso como una herramienta de diagnóstico para avanzar en la generación robusta de imágenes.

English

Advances in diffusion, autoregressive, and hybrid models have enabled high-quality image synthesis for tasks such as text-to-image, editing, and reference-guided composition. Yet, existing benchmarks remain limited, either focus on isolated tasks, cover only narrow domains, or provide opaque scores without explaining failure modes. We introduce ImagenWorld, a benchmark of 3.6K condition sets spanning six core tasks (generation and editing, with single or multiple references) and six topical domains (artworks, photorealistic images, information graphics, textual graphics, computer graphics, and screenshots). The benchmark is supported by 20K fine-grained human annotations and an explainable evaluation schema that tags localized object-level and segment-level errors, complementing automated VLM-based metrics. Our large-scale evaluation of 14 models yields several insights: (1) models typically struggle more in editing tasks than in generation tasks, especially in local edits. (2) models excel in artistic and photorealistic settings but struggle with symbolic and text-heavy domains such as screenshots and information graphics. (3) closed-source systems lead overall, while targeted data curation (e.g., Qwen-Image) narrows the gap in text-heavy cases. (4) modern VLM-based metrics achieve Kendall accuracies up to 0.79, approximating human ranking, but fall short of fine-grained, explainable error attribution. ImagenWorld provides both a rigorous benchmark and a diagnostic tool to advance robust image generation.

ImagenWorld: Pruebas de Estrés para Modelos de Generación de Imágenes con Evaluación Humana Explicable en Tareas Abiertas del Mundo Real

ImagenWorld: Stress-Testing Image Generation Models with Explainable Human Evaluation on Open-ended Real-World Tasks

Resumen

Support