ImagenWorld : Mise à l'épreuve des modèles de génération d'images par une évaluation humaine explicable sur des tâches ouvertes du monde réel

Résumé

Les progrès des modèles de diffusion, autorégressifs et hybrides ont permis une synthèse d'images de haute qualité pour des tâches telles que la génération texte-image, l'édition et la composition guidée par référence. Pourtant, les benchmarks existants restent limités : ils se concentrent soit sur des tâches isolées, couvrent des domaines étroits, ou fournissent des scores opaques sans expliquer les modes d'échec. Nous présentons ImagenWorld, un benchmark de 3 600 ensembles de conditions couvrant six tâches principales (génération et édition, avec une ou plusieurs références) et six domaines thématiques (œuvres d'art, images photoréalistes, infographies, graphiques textuels, images de synthèse et captures d'écran). Le benchmark est soutenu par 20 000 annotations humaines granulaires et un schéma d'évaluation explicable qui identifie les erreurs localisées au niveau des objets et des segments, complétant les métriques automatisées basées sur les modèles de vision et langage (VLM). Notre évaluation à grande échelle de 14 modèles révèle plusieurs insights : (1) les modèles éprouvent généralement plus de difficultés dans les tâches d'édition que de génération, particulièrement pour les modifications locales. (2) les modèles excellent dans les contextes artistiques et photoréalistes mais peinent avec les domaines symboliques et riches en texte comme les captures d'écran et les infographies. (3) les systèmes fermés mènent globalement, tandis qu'une curation ciblée des données (par exemple, Qwen-Image) réduit l'écart dans les cas riches en texte. (4) les métriques modernes basées sur les VLM atteignent des précisions de Kendall allant jusqu'à 0,79, approchant le classement humain, mais sont insuffisantes pour une attribution d'erreur granulaire et explicable. ImagenWorld offre à la fois un benchmark rigoureux et un outil de diagnostic pour faire progresser la génération d'images robuste.

English

Advances in diffusion, autoregressive, and hybrid models have enabled high-quality image synthesis for tasks such as text-to-image, editing, and reference-guided composition. Yet, existing benchmarks remain limited, either focus on isolated tasks, cover only narrow domains, or provide opaque scores without explaining failure modes. We introduce ImagenWorld, a benchmark of 3.6K condition sets spanning six core tasks (generation and editing, with single or multiple references) and six topical domains (artworks, photorealistic images, information graphics, textual graphics, computer graphics, and screenshots). The benchmark is supported by 20K fine-grained human annotations and an explainable evaluation schema that tags localized object-level and segment-level errors, complementing automated VLM-based metrics. Our large-scale evaluation of 14 models yields several insights: (1) models typically struggle more in editing tasks than in generation tasks, especially in local edits. (2) models excel in artistic and photorealistic settings but struggle with symbolic and text-heavy domains such as screenshots and information graphics. (3) closed-source systems lead overall, while targeted data curation (e.g., Qwen-Image) narrows the gap in text-heavy cases. (4) modern VLM-based metrics achieve Kendall accuracies up to 0.79, approximating human ranking, but fall short of fine-grained, explainable error attribution. ImagenWorld provides both a rigorous benchmark and a diagnostic tool to advance robust image generation.

ImagenWorld : Mise à l'épreuve des modèles de génération d'images par une évaluation humaine explicable sur des tâches ouvertes du monde réel

ImagenWorld: Stress-Testing Image Generation Models with Explainable Human Evaluation on Open-ended Real-World Tasks

Résumé

Support