ChatPaper.aiChatPaper

GIR-Bench: Универсальный бенчмарк для генерации изображений с использованием логического рассуждения

GIR-Bench: Versatile Benchmark for Generating Images with Reasoning

October 13, 2025
Авторы: Hongxiang Li, Yaowei Li, Bin Lin, Yuwei Niu, Yuhang Yang, Xiaoshuang Huang, Jiayin Cai, Xiaolong Jiang, Yao Hu, Long Chen
cs.AI

Аннотация

Унифицированные мультимодальные модели объединяют способность к рассуждению крупных языковых моделей с пониманием и генерацией изображений, демонстрируя значительный потенциал для развития продвинутого мультимодального интеллекта. Однако в сообществе до сих пор отсутствует строгий бенчмарк, ориентированный на рассуждения, который бы систематически оценивал согласованность между пониманием и генерацией, а также их потенциал обобщения в сложных визуальных задачах. В связи с этим мы представляем GIR-Bench — комплексный бенчмарк, который оценивает унифицированные модели с трех взаимодополняющих перспектив. Во-первых, мы исследуем согласованность понимания и генерации (GIR-Bench-UGC), проверяя, могут ли модели последовательно использовать одни и те же знания в задачах понимания и генерации. Во-вторых, мы изучаем, способны ли модели выполнять генерацию изображений на основе текста, ориентированную на рассуждения, которая требует применения логических ограничений и неявных знаний для создания достоверного визуального контента (GIR-Bench-T2I). В-третьих, мы оцениваем, могут ли модели справляться с многошаговыми рассуждениями в задачах редактирования (GIR-Bench-Edit). Для каждого подмножества мы тщательно разрабатываем специализированные оценочные конвейеры, адаптированные для конкретных задач. Это позволяет проводить детальную и интерпретируемую оценку, минимизируя предвзятость, присущую распространенной парадигме MLLM-as-a-Judge. Обширные эксперименты с различными унифицированными моделями и системами, ориентированными исключительно на генерацию, показали, что, хотя унифицированные модели более способны к решению задач, требующих рассуждений, между их пониманием и генерацией сохраняется значительный разрыв. Данные и код для GIR-Bench доступны по адресу https://hkust-longgroup.github.io/GIR-Bench{https://hkust-longgroup.github.io/GIR-Bench}.
English
Unified multimodal models integrate the reasoning capacity of large language models with both image understanding and generation, showing great promise for advanced multimodal intelligence. However, the community still lacks a rigorous reasoning-centric benchmark to systematically evaluate the alignment between understanding and generation, and their generalization potential in complex visual tasks. To this end, we introduce GIR-Bench, a comprehensive benchmark that evaluates unified models across three complementary perspectives. Firstly, we investigate understanding-generation consistency (GIR-Bench-UGC), asking whether models can consistently leverage the same knowledge in both understanding and generation tasks. Secondly, we investigate whether models can perform reasoning-centric text-to-image generation that requires applying logical constraints and implicit knowledge to generate faithful visual content (GIR-Bench-T2I). Thirdly, we evaluate whether models can handle multi-step reasoning in editing (GIR-Bench-Edit). For each subset, we carefully design different task-specific evaluation pipelines tailored for each task. This enables fine-grained and interpretable evaluation while mitigating biases from the prevalent MLLM-as-a-Judge paradigm. Extensive ablations over various unified models and generation-only systems have shown that: Although unified models are more capable of reasoning-driven visual tasks, they still exhibit a persistent gap between understanding and generation. The data and code for GIR-Bench are available at https://hkust-longgroup.github.io/GIR-Bench{https://hkust-longgroup.github.io/GIR-Bench}.
PDF173October 14, 2025