GIR-Bench: Benchmark Versatile per la Generazione di Immagini con Ragionamento
GIR-Bench: Versatile Benchmark for Generating Images with Reasoning
October 13, 2025
Autori: Hongxiang Li, Yaowei Li, Bin Lin, Yuwei Niu, Yuhang Yang, Xiaoshuang Huang, Jiayin Cai, Xiaolong Jiang, Yao Hu, Long Chen
cs.AI
Abstract
I modelli multimodali unificati integrano la capacità di ragionamento dei grandi modelli linguistici con la comprensione e la generazione di immagini, dimostrando un grande potenziale per l'intelligenza multimodale avanzata. Tuttavia, la comunità manca ancora di un benchmark rigoroso e centrato sul ragionamento per valutare sistematicamente l'allineamento tra comprensione e generazione, nonché il loro potenziale di generalizzazione in compiti visivi complessi. A tal fine, introduciamo GIR-Bench, un benchmark completo che valuta i modelli unificati secondo tre prospettive complementari. In primo luogo, indaghiamo la coerenza tra comprensione e generazione (GIR-Bench-UGC), chiedendoci se i modelli possano sfruttare in modo coerente le stesse conoscenze sia nei compiti di comprensione che di generazione. In secondo luogo, esaminiamo se i modelli siano in grado di eseguire una generazione di immagini da testo centrata sul ragionamento, che richiede l'applicazione di vincoli logici e conoscenze implicite per produrre contenuti visivi fedeli (GIR-Bench-T2I). In terzo luogo, valutiamo se i modelli possano gestire il ragionamento a più passi nell'editing (GIR-Bench-Edit). Per ciascun sottoinsieme, progettiamo con cura diverse pipeline di valutazione specifiche per il compito, adattate a ciascuna attività. Ciò consente una valutazione granulare e interpretabile, mitigando al contempo i bias derivanti dal paradigma prevalente MLLM-as-a-Judge. Estese analisi su vari modelli unificati e sistemi di sola generazione hanno dimostrato che: sebbene i modelli unificati siano più capaci nei compiti visivi guidati dal ragionamento, mostrano ancora un divario persistente tra comprensione e generazione. I dati e il codice per GIR-Bench sono disponibili all'indirizzo https://hkust-longgroup.github.io/GIR-Bench{https://hkust-longgroup.github.io/GIR-Bench}.
English
Unified multimodal models integrate the reasoning capacity of large language
models with both image understanding and generation, showing great promise for
advanced multimodal intelligence. However, the community still lacks a rigorous
reasoning-centric benchmark to systematically evaluate the alignment between
understanding and generation, and their generalization potential in complex
visual tasks. To this end, we introduce GIR-Bench, a comprehensive
benchmark that evaluates unified models across three complementary
perspectives. Firstly, we investigate understanding-generation consistency
(GIR-Bench-UGC), asking whether models can consistently leverage the same
knowledge in both understanding and generation tasks. Secondly, we investigate
whether models can perform reasoning-centric text-to-image generation that
requires applying logical constraints and implicit knowledge to generate
faithful visual content (GIR-Bench-T2I). Thirdly, we evaluate whether models
can handle multi-step reasoning in editing (GIR-Bench-Edit). For each subset,
we carefully design different task-specific evaluation pipelines tailored for
each task. This enables fine-grained and interpretable evaluation while
mitigating biases from the prevalent MLLM-as-a-Judge paradigm. Extensive
ablations over various unified models and generation-only systems have shown
that: Although unified models are more capable of reasoning-driven visual
tasks, they still exhibit a persistent gap between understanding and
generation. The data and code for GIR-Bench are available at
https://hkust-longgroup.github.io/GIR-Bench{https://hkust-longgroup.github.io/GIR-Bench}.