GIR-Bench : Benchmark polyvalent pour la génération d'images avec raisonnement
GIR-Bench: Versatile Benchmark for Generating Images with Reasoning
October 13, 2025
papers.authors: Hongxiang Li, Yaowei Li, Bin Lin, Yuwei Niu, Yuhang Yang, Xiaoshuang Huang, Jiayin Cai, Xiaolong Jiang, Yao Hu, Long Chen
cs.AI
papers.abstract
Les modèles multimodaux unifiés intègrent la capacité de raisonnement des grands modèles de langage avec la compréhension et la génération d'images, montrant un grand potentiel pour une intelligence multimodale avancée. Cependant, la communauté manque encore d'un benchmark rigoureux centré sur le raisonnement pour évaluer systématiquement l'alignement entre la compréhension et la génération, ainsi que leur potentiel de généralisation dans des tâches visuelles complexes. À cette fin, nous introduisons GIR-Bench, un benchmark complet qui évalue les modèles unifiés selon trois perspectives complémentaires. Premièrement, nous étudions la cohérence entre compréhension et génération (GIR-Bench-UGC), en examinant si les modèles peuvent exploiter de manière cohérente les mêmes connaissances dans les tâches de compréhension et de génération. Deuxièmement, nous investiguons si les modèles peuvent effectuer une génération d'images à partir de texte centrée sur le raisonnement, nécessitant l'application de contraintes logiques et de connaissances implicites pour produire un contenu visuel fidèle (GIR-Bench-T2I). Troisièmement, nous évaluons si les modèles peuvent gérer un raisonnement en plusieurs étapes dans l'édition d'images (GIR-Bench-Edit). Pour chaque sous-ensemble, nous concevons soigneusement des pipelines d'évaluation spécifiques adaptés à chaque tâche. Cela permet une évaluation fine et interprétable tout en atténuant les biais du paradigme MLLM-as-a-Judge prédominant. Des ablations approfondies sur divers modèles unifiés et systèmes de génération uniquement ont montré que : bien que les modèles unifiés soient plus aptes à réaliser des tâches visuelles pilotées par le raisonnement, ils présentent toujours un écart persistant entre compréhension et génération. Les données et le code pour GIR-Bench sont disponibles à l'adresse https://hkust-longgroup.github.io/GIR-Bench{https://hkust-longgroup.github.io/GIR-Bench}.
English
Unified multimodal models integrate the reasoning capacity of large language
models with both image understanding and generation, showing great promise for
advanced multimodal intelligence. However, the community still lacks a rigorous
reasoning-centric benchmark to systematically evaluate the alignment between
understanding and generation, and their generalization potential in complex
visual tasks. To this end, we introduce GIR-Bench, a comprehensive
benchmark that evaluates unified models across three complementary
perspectives. Firstly, we investigate understanding-generation consistency
(GIR-Bench-UGC), asking whether models can consistently leverage the same
knowledge in both understanding and generation tasks. Secondly, we investigate
whether models can perform reasoning-centric text-to-image generation that
requires applying logical constraints and implicit knowledge to generate
faithful visual content (GIR-Bench-T2I). Thirdly, we evaluate whether models
can handle multi-step reasoning in editing (GIR-Bench-Edit). For each subset,
we carefully design different task-specific evaluation pipelines tailored for
each task. This enables fine-grained and interpretable evaluation while
mitigating biases from the prevalent MLLM-as-a-Judge paradigm. Extensive
ablations over various unified models and generation-only systems have shown
that: Although unified models are more capable of reasoning-driven visual
tasks, they still exhibit a persistent gap between understanding and
generation. The data and code for GIR-Bench are available at
https://hkust-longgroup.github.io/GIR-Bench{https://hkust-longgroup.github.io/GIR-Bench}.