GIR-Bench:推論を伴う画像生成のための多用途ベンチマーク
GIR-Bench: Versatile Benchmark for Generating Images with Reasoning
October 13, 2025
著者: Hongxiang Li, Yaowei Li, Bin Lin, Yuwei Niu, Yuhang Yang, Xiaoshuang Huang, Jiayin Cai, Xiaolong Jiang, Yao Hu, Long Chen
cs.AI
要旨
統一マルチモーダルモデルは、大規模言語モデルの推論能力と画像理解・生成の両方を統合し、高度なマルチモーダル知能に向けて大きな可能性を示しています。しかし、コミュニティには、理解と生成の整合性、および複雑な視覚タスクにおける汎化可能性を体系的に評価するための厳密な推論中心のベンチマークがまだ不足しています。この目的のために、我々はGIR-Benchを導入します。これは、統一モデルを3つの補完的な視点から評価する包括的なベンチマークです。まず、理解と生成の一貫性(GIR-Bench-UGC)を調査し、モデルが理解タスクと生成タスクの両方で同じ知識を一貫して活用できるかどうかを問います。次に、論理的制約と暗黙の知識を適用して忠実な視覚コンテンツを生成する推論中心のテキストから画像への生成(GIR-Bench-T2I)が可能かどうかを調査します。第三に、編集における多段階の推論を処理できるかどうかを評価します(GIR-Bench-Edit)。各サブセットについて、各タスクに特化した評価パイプラインを慎重に設計します。これにより、細かい粒度で解釈可能な評価が可能になり、広く普及しているMLLM-as-a-Judgeパラダイムからのバイアスを軽減します。様々な統一モデルと生成専用システムに対する広範なアブレーション研究により、以下のことが明らかになりました:統一モデルは推論駆動の視覚タスクにおいてより優れているものの、理解と生成の間には依然として持続的なギャップが存在します。GIR-Benchのデータとコードはhttps://hkust-longgroup.github.io/GIR-Bench{https://hkust-longgroup.github.io/GIR-Bench}で公開されています。
English
Unified multimodal models integrate the reasoning capacity of large language
models with both image understanding and generation, showing great promise for
advanced multimodal intelligence. However, the community still lacks a rigorous
reasoning-centric benchmark to systematically evaluate the alignment between
understanding and generation, and their generalization potential in complex
visual tasks. To this end, we introduce GIR-Bench, a comprehensive
benchmark that evaluates unified models across three complementary
perspectives. Firstly, we investigate understanding-generation consistency
(GIR-Bench-UGC), asking whether models can consistently leverage the same
knowledge in both understanding and generation tasks. Secondly, we investigate
whether models can perform reasoning-centric text-to-image generation that
requires applying logical constraints and implicit knowledge to generate
faithful visual content (GIR-Bench-T2I). Thirdly, we evaluate whether models
can handle multi-step reasoning in editing (GIR-Bench-Edit). For each subset,
we carefully design different task-specific evaluation pipelines tailored for
each task. This enables fine-grained and interpretable evaluation while
mitigating biases from the prevalent MLLM-as-a-Judge paradigm. Extensive
ablations over various unified models and generation-only systems have shown
that: Although unified models are more capable of reasoning-driven visual
tasks, they still exhibit a persistent gap between understanding and
generation. The data and code for GIR-Bench are available at
https://hkust-longgroup.github.io/GIR-Bench{https://hkust-longgroup.github.io/GIR-Bench}.