GIR-Bench: Vielseitiger Benchmark zur Generierung von Bildern mit logischem Denken

papers.abstract

Einheitliche multimodale Modelle integrieren die Denkfähigkeit großer Sprachmodelle mit Bildverständnis und -generierung und zeigen großes Potenzial für fortgeschrittene multimodale Intelligenz. Dennoch fehlt der Gemeinschaft nach wie vor ein strenger, auf das Denken zentrierter Benchmark, um die Übereinstimmung zwischen Verständnis und Generierung sowie ihr Generalisierungspotenzial in komplexen visuellen Aufgaben systematisch zu bewerten. Zu diesem Zweck führen wir GIR-Bench ein, einen umfassenden Benchmark, der einheitliche Modelle aus drei komplementären Perspektiven bewertet. Erstens untersuchen wir die Konsistenz zwischen Verständnis und Generierung (GIR-Bench-UGC), indem wir prüfen, ob Modelle dasselbe Wissen sowohl in Verständnis- als auch in Generierungsaufgaben konsistent nutzen können. Zweitens untersuchen wir, ob Modelle eine auf das Denken zentrierte Text-zu-Bild-Generierung durchführen können, die die Anwendung logischer Einschränkungen und impliziten Wissens erfordert, um treue visuelle Inhalte zu erzeugen (GIR-Bench-T2I). Drittens bewerten wir, ob Modelle mehrstufiges Denken bei der Bearbeitung bewältigen können (GIR-Bench-Edit). Für jede Teilmenge entwerfen wir sorgfältig verschiedene aufgaben spezifische Bewertungspipelines, die auf die jeweilige Aufgabe zugeschnitten sind. Dies ermöglicht eine fein abgestimmte und interpretierbare Bewertung, während Verzerrungen durch das verbreitete MLLM-as-a-Judge-Paradigma gemildert werden. Umfangreiche Ablationen über verschiedene einheitliche Modelle und rein generierende Systeme haben gezeigt: Obwohl einheitliche Modelle besser in der Lage sind, auf das Denken ausgerichtete visuelle Aufgaben zu bewältigen, besteht nach wie vor eine anhaltende Lücke zwischen Verständnis und Generierung. Die Daten und der Code für GIR-Bench sind unter https://hkust-longgroup.github.io/GIR-Bench verfügbar.

English

Unified multimodal models integrate the reasoning capacity of large language models with both image understanding and generation, showing great promise for advanced multimodal intelligence. However, the community still lacks a rigorous reasoning-centric benchmark to systematically evaluate the alignment between understanding and generation, and their generalization potential in complex visual tasks. To this end, we introduce GIR-Bench, a comprehensive benchmark that evaluates unified models across three complementary perspectives. Firstly, we investigate understanding-generation consistency (GIR-Bench-UGC), asking whether models can consistently leverage the same knowledge in both understanding and generation tasks. Secondly, we investigate whether models can perform reasoning-centric text-to-image generation that requires applying logical constraints and implicit knowledge to generate faithful visual content (GIR-Bench-T2I). Thirdly, we evaluate whether models can handle multi-step reasoning in editing (GIR-Bench-Edit). For each subset, we carefully design different task-specific evaluation pipelines tailored for each task. This enables fine-grained and interpretable evaluation while mitigating biases from the prevalent MLLM-as-a-Judge paradigm. Extensive ablations over various unified models and generation-only systems have shown that: Although unified models are more capable of reasoning-driven visual tasks, they still exhibit a persistent gap between understanding and generation. The data and code for GIR-Bench are available at https://hkust-longgroup.github.io/GIR-Bench{https://hkust-longgroup.github.io/GIR-Bench}.

GIR-Bench: Vielseitiger Benchmark zur Generierung von Bildern mit logischem Denken

GIR-Bench: Versatile Benchmark for Generating Images with Reasoning

papers.abstract

Support