ChatPaper.aiChatPaper

GIR-Bench: 추론을 통한 이미지 생성을 위한 다목적 벤치마크

GIR-Bench: Versatile Benchmark for Generating Images with Reasoning

October 13, 2025
저자: Hongxiang Li, Yaowei Li, Bin Lin, Yuwei Niu, Yuhang Yang, Xiaoshuang Huang, Jiayin Cai, Xiaolong Jiang, Yao Hu, Long Chen
cs.AI

초록

통합 멀티모달 모델은 대규모 언어 모델의 추론 능력을 이미지 이해 및 생성과 결합하여 고급 멀티모달 인텔리전스에 대한 큰 가능성을 보여줍니다. 그러나 현재 커뮤니티에서는 이해와 생성 간의 일관성과 복잡한 시각적 작업에서의 일반화 잠재력을 체계적으로 평가할 수 있는 엄격한 추론 중심 벤치마크가 부족합니다. 이를 위해 우리는 GIR-Bench를 소개합니다. 이는 통합 모델을 세 가지 상호 보완적인 관점에서 평가하는 포괄적인 벤치마크입니다. 첫째, 모델이 이해와 생성 작업에서 동일한 지식을 일관되게 활용할 수 있는지 조사합니다(GIR-Bench-UGC). 둘째, 모델이 논리적 제약과 암묵적 지식을 적용하여 충실한 시각적 콘텐츠를 생성할 수 있는 추론 중심의 텍스트-이미지 생성 능력을 평가합니다(GIR-Bench-T2I). 셋째, 모델이 편집 작업에서 다단계 추론을 처리할 수 있는지 평가합니다(GIR-Bench-Edit). 각 하위 집단에 대해, 우리는 각 작업에 맞게 세심하게 설계된 작업별 평가 파이프라인을 구축했습니다. 이를 통해 세분화되고 해석 가능한 평가를 가능하게 하면서도 널리 사용되는 MLLM-as-a-Judge 패러다임에서 오는 편향을 완화합니다. 다양한 통합 모델과 생성 전용 시스템에 대한 광범위한 실험 결과, 통합 모델이 추론 기반 시각적 작업에서 더 우수한 능력을 보이지만 여전히 이해와 생성 간에 지속적인 격차가 존재함을 확인했습니다. GIR-Bench의 데이터와 코드는 https://hkust-longgroup.github.io/GIR-Bench에서 확인할 수 있습니다.
English
Unified multimodal models integrate the reasoning capacity of large language models with both image understanding and generation, showing great promise for advanced multimodal intelligence. However, the community still lacks a rigorous reasoning-centric benchmark to systematically evaluate the alignment between understanding and generation, and their generalization potential in complex visual tasks. To this end, we introduce GIR-Bench, a comprehensive benchmark that evaluates unified models across three complementary perspectives. Firstly, we investigate understanding-generation consistency (GIR-Bench-UGC), asking whether models can consistently leverage the same knowledge in both understanding and generation tasks. Secondly, we investigate whether models can perform reasoning-centric text-to-image generation that requires applying logical constraints and implicit knowledge to generate faithful visual content (GIR-Bench-T2I). Thirdly, we evaluate whether models can handle multi-step reasoning in editing (GIR-Bench-Edit). For each subset, we carefully design different task-specific evaluation pipelines tailored for each task. This enables fine-grained and interpretable evaluation while mitigating biases from the prevalent MLLM-as-a-Judge paradigm. Extensive ablations over various unified models and generation-only systems have shown that: Although unified models are more capable of reasoning-driven visual tasks, they still exhibit a persistent gap between understanding and generation. The data and code for GIR-Bench are available at https://hkust-longgroup.github.io/GIR-Bench{https://hkust-longgroup.github.io/GIR-Bench}.
PDF173October 14, 2025