GIR-Bench: Punto de referencia versátil para la generación de imágenes con razonamiento
GIR-Bench: Versatile Benchmark for Generating Images with Reasoning
October 13, 2025
Autores: Hongxiang Li, Yaowei Li, Bin Lin, Yuwei Niu, Yuhang Yang, Xiaoshuang Huang, Jiayin Cai, Xiaolong Jiang, Yao Hu, Long Chen
cs.AI
Resumen
Los modelos unificados multimodales integran la capacidad de razonamiento de los modelos de lenguaje de gran escala con la comprensión y generación de imágenes, mostrando un gran potencial para la inteligencia multimodal avanzada. Sin embargo, la comunidad aún carece de un punto de referencia riguroso centrado en el razonamiento para evaluar sistemáticamente la alineación entre la comprensión y la generación, así como su potencial de generalización en tareas visuales complejas. Con este fin, presentamos GIR-Bench, un punto de referencia integral que evalúa los modelos unificados desde tres perspectivas complementarias. En primer lugar, investigamos la consistencia entre comprensión y generación (GIR-Bench-UGC), preguntándonos si los modelos pueden aprovechar consistentemente el mismo conocimiento tanto en tareas de comprensión como de generación. En segundo lugar, investigamos si los modelos pueden realizar generación de texto a imagen centrada en el razonamiento, que requiere aplicar restricciones lógicas y conocimiento implícito para generar contenido visual fiel (GIR-Bench-T2I). En tercer lugar, evaluamos si los modelos pueden manejar el razonamiento de múltiples pasos en la edición (GIR-Bench-Edit). Para cada subconjunto, diseñamos cuidadosamente diferentes pipelines de evaluación específicos para cada tarea. Esto permite una evaluación detallada e interpretable, al tiempo que mitiga los sesgos del paradigma prevalente de MLLM-como-juez. Las ablaciones extensas sobre varios modelos unificados y sistemas de solo generación han demostrado que: aunque los modelos unificados son más capaces en tareas visuales impulsadas por el razonamiento, aún exhiben una brecha persistente entre la comprensión y la generación. Los datos y el código de GIR-Bench están disponibles en https://hkust-longgroup.github.io/GIR-Bench{https://hkust-longgroup.github.io/GIR-Bench}.
English
Unified multimodal models integrate the reasoning capacity of large language
models with both image understanding and generation, showing great promise for
advanced multimodal intelligence. However, the community still lacks a rigorous
reasoning-centric benchmark to systematically evaluate the alignment between
understanding and generation, and their generalization potential in complex
visual tasks. To this end, we introduce GIR-Bench, a comprehensive
benchmark that evaluates unified models across three complementary
perspectives. Firstly, we investigate understanding-generation consistency
(GIR-Bench-UGC), asking whether models can consistently leverage the same
knowledge in both understanding and generation tasks. Secondly, we investigate
whether models can perform reasoning-centric text-to-image generation that
requires applying logical constraints and implicit knowledge to generate
faithful visual content (GIR-Bench-T2I). Thirdly, we evaluate whether models
can handle multi-step reasoning in editing (GIR-Bench-Edit). For each subset,
we carefully design different task-specific evaluation pipelines tailored for
each task. This enables fine-grained and interpretable evaluation while
mitigating biases from the prevalent MLLM-as-a-Judge paradigm. Extensive
ablations over various unified models and generation-only systems have shown
that: Although unified models are more capable of reasoning-driven visual
tasks, they still exhibit a persistent gap between understanding and
generation. The data and code for GIR-Bench are available at
https://hkust-longgroup.github.io/GIR-Bench{https://hkust-longgroup.github.io/GIR-Bench}.