ChatPaper.aiChatPaper

GIR-Bench: Veelzijdige Benchmark voor het Genereren van Afbeeldingen met Redenering

GIR-Bench: Versatile Benchmark for Generating Images with Reasoning

October 13, 2025
Auteurs: Hongxiang Li, Yaowei Li, Bin Lin, Yuwei Niu, Yuhang Yang, Xiaoshuang Huang, Jiayin Cai, Xiaolong Jiang, Yao Hu, Long Chen
cs.AI

Samenvatting

Unified multimodale modellen integreren het redeneervermogen van grote taalmodellen met zowel beeldbegrip als -generatie, wat veelbelovend is voor geavanceerde multimodale intelligentie. De gemeenschap beschikt echter nog steeds niet over een rigoureus, op redeneren gericht benchmark om de afstemming tussen begrip en generatie, en hun generalisatiepotentieel in complexe visuele taken, systematisch te evalueren. Daarom introduceren we GIR-Bench, een uitgebreide benchmark die unified modellen evalueert vanuit drie complementaire perspectieven. Ten eerste onderzoeken we de consistentie tussen begrip en generatie (GIR-Bench-UGC), waarbij we nagaan of modellen dezelfde kennis consistent kunnen toepassen in zowel begrip- als generatietaken. Ten tweede onderzoeken we of modellen redeneringsgerichte tekst-naar-beeldgeneratie kunnen uitvoeren die het toepassen van logische beperkingen en impliciete kennis vereist om getrouwe visuele inhoud te genereren (GIR-Bench-T2I). Ten derde evalueren we of modellen multi-staps redeneren kunnen hanteren bij bewerkingen (GIR-Bench-Edit). Voor elke subset hebben we zorgvuldig verschillende taakspecifieke evaluatiepijplijnen ontworpen die zijn afgestemd op elke taak. Dit maakt een fijnmazige en interpreteerbare evaluatie mogelijk, terwijl vooroordelen van het veelgebruikte MLLM-as-a-Judge-paradigma worden geminimaliseerd. Uitgebreide ablatie-experimenten met verschillende unified modellen en generatie-alleen systemen hebben aangetoond dat: Hoewel unified modellen beter in staat zijn tot redeneringsgedreven visuele taken, vertonen ze nog steeds een aanhoudende kloof tussen begrip en generatie. De data en code voor GIR-Bench zijn beschikbaar op https://hkust-longgroup.github.io/GIR-Bench{https://hkust-longgroup.github.io/GIR-Bench}.
English
Unified multimodal models integrate the reasoning capacity of large language models with both image understanding and generation, showing great promise for advanced multimodal intelligence. However, the community still lacks a rigorous reasoning-centric benchmark to systematically evaluate the alignment between understanding and generation, and their generalization potential in complex visual tasks. To this end, we introduce GIR-Bench, a comprehensive benchmark that evaluates unified models across three complementary perspectives. Firstly, we investigate understanding-generation consistency (GIR-Bench-UGC), asking whether models can consistently leverage the same knowledge in both understanding and generation tasks. Secondly, we investigate whether models can perform reasoning-centric text-to-image generation that requires applying logical constraints and implicit knowledge to generate faithful visual content (GIR-Bench-T2I). Thirdly, we evaluate whether models can handle multi-step reasoning in editing (GIR-Bench-Edit). For each subset, we carefully design different task-specific evaluation pipelines tailored for each task. This enables fine-grained and interpretable evaluation while mitigating biases from the prevalent MLLM-as-a-Judge paradigm. Extensive ablations over various unified models and generation-only systems have shown that: Although unified models are more capable of reasoning-driven visual tasks, they still exhibit a persistent gap between understanding and generation. The data and code for GIR-Bench are available at https://hkust-longgroup.github.io/GIR-Bench{https://hkust-longgroup.github.io/GIR-Bench}.
PDF173October 14, 2025