GIR-Bench: Vielseitiger Benchmark zur Generierung von Bildern mit logischem Denken
GIR-Bench: Versatile Benchmark for Generating Images with Reasoning
October 13, 2025
papers.authors: Hongxiang Li, Yaowei Li, Bin Lin, Yuwei Niu, Yuhang Yang, Xiaoshuang Huang, Jiayin Cai, Xiaolong Jiang, Yao Hu, Long Chen
cs.AI
papers.abstract
Einheitliche multimodale Modelle integrieren die Denkfähigkeit großer Sprachmodelle mit Bildverständnis und -generierung und zeigen großes Potenzial für fortgeschrittene multimodale Intelligenz. Dennoch fehlt der Gemeinschaft nach wie vor ein strenger, auf das Denken zentrierter Benchmark, um die Übereinstimmung zwischen Verständnis und Generierung sowie ihr Generalisierungspotenzial in komplexen visuellen Aufgaben systematisch zu bewerten. Zu diesem Zweck führen wir GIR-Bench ein, einen umfassenden Benchmark, der einheitliche Modelle aus drei komplementären Perspektiven bewertet. Erstens untersuchen wir die Konsistenz zwischen Verständnis und Generierung (GIR-Bench-UGC), indem wir prüfen, ob Modelle dasselbe Wissen sowohl in Verständnis- als auch in Generierungsaufgaben konsistent nutzen können. Zweitens untersuchen wir, ob Modelle eine auf das Denken zentrierte Text-zu-Bild-Generierung durchführen können, die die Anwendung logischer Einschränkungen und impliziten Wissens erfordert, um treue visuelle Inhalte zu erzeugen (GIR-Bench-T2I). Drittens bewerten wir, ob Modelle mehrstufiges Denken bei der Bearbeitung bewältigen können (GIR-Bench-Edit). Für jede Teilmenge entwerfen wir sorgfältig verschiedene aufgaben spezifische Bewertungspipelines, die auf die jeweilige Aufgabe zugeschnitten sind. Dies ermöglicht eine fein abgestimmte und interpretierbare Bewertung, während Verzerrungen durch das verbreitete MLLM-as-a-Judge-Paradigma gemildert werden. Umfangreiche Ablationen über verschiedene einheitliche Modelle und rein generierende Systeme haben gezeigt: Obwohl einheitliche Modelle besser in der Lage sind, auf das Denken ausgerichtete visuelle Aufgaben zu bewältigen, besteht nach wie vor eine anhaltende Lücke zwischen Verständnis und Generierung. Die Daten und der Code für GIR-Bench sind unter https://hkust-longgroup.github.io/GIR-Bench verfügbar.
English
Unified multimodal models integrate the reasoning capacity of large language
models with both image understanding and generation, showing great promise for
advanced multimodal intelligence. However, the community still lacks a rigorous
reasoning-centric benchmark to systematically evaluate the alignment between
understanding and generation, and their generalization potential in complex
visual tasks. To this end, we introduce GIR-Bench, a comprehensive
benchmark that evaluates unified models across three complementary
perspectives. Firstly, we investigate understanding-generation consistency
(GIR-Bench-UGC), asking whether models can consistently leverage the same
knowledge in both understanding and generation tasks. Secondly, we investigate
whether models can perform reasoning-centric text-to-image generation that
requires applying logical constraints and implicit knowledge to generate
faithful visual content (GIR-Bench-T2I). Thirdly, we evaluate whether models
can handle multi-step reasoning in editing (GIR-Bench-Edit). For each subset,
we carefully design different task-specific evaluation pipelines tailored for
each task. This enables fine-grained and interpretable evaluation while
mitigating biases from the prevalent MLLM-as-a-Judge paradigm. Extensive
ablations over various unified models and generation-only systems have shown
that: Although unified models are more capable of reasoning-driven visual
tasks, they still exhibit a persistent gap between understanding and
generation. The data and code for GIR-Bench are available at
https://hkust-longgroup.github.io/GIR-Bench{https://hkust-longgroup.github.io/GIR-Bench}.