ChatPaper.aiChatPaper

UniGenBench++: 텍스트-이미지 생성을 위한 통합 의미론적 평가 벤치마크

UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation

October 21, 2025
저자: Yibin Wang, Zhimin Li, Yuhang Zang, Jiazi Bu, Yujie Zhou, Yi Xin, Junjun He, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang
cs.AI

초록

텍스트-이미지(T2I) 생성 분야의 최근 발전은 생성된 이미지가 텍스트 프롬프트의 의미를 얼마나 정확히 반영하는지 평가하는 데 있어 신뢰할 수 있는 벤치마크의 중요성을 강조합니다. 그러나 (1) 기존 벤치마크는 실제 적용 가능성을 위해 필수적인 다양한 프롬프트 시나리오와 다국어 지원이 부족하며, (2) 주요 차원에 대한 대략적인 평가만 제공하고, 세부 차원 평가 범위가 좁아 미세한 세부 차원 평가에는 미치지 못합니다. 이러한 한계를 해결하기 위해, 우리는 T2I 생성을 위한 통합 의미 평가 벤치마크인 UniGenBench++를 소개합니다. 구체적으로, 이 벤치마크는 600개의 프롬프트로 구성되어 있으며, 계층적으로 조직되어 커버리지와 효율성을 보장합니다: (1) 5개의 주요 프롬프트 주제와 20개의 하위 주제로 다양한 실제 시나리오를 포괄하며, (2) 10개의 주요 평가 기준과 27개의 세부 평가 기준에 걸쳐 T2I 모델의 의미 일관성을 종합적으로 탐구하며, 각 프롬프트는 여러 테스트 포인트를 평가합니다. 언어와 프롬프트 길이의 변화에 대한 모델의 견고성을 엄격히 평가하기 위해, 각 프롬프트의 짧은 형태와 긴 형태의 영어 및 중국어 버전을 제공합니다. 폐쇄형 다중 모드 대형 언어 모델(MLLM), 즉 Gemini-2.5-Pro의 일반 세계 지식과 세밀한 이미지 이해 능력을 활용하여, 신뢰할 수 있는 벤치마크 구축과 간소화된 모델 평가를 위한 효과적인 파이프라인을 개발했습니다. 또한, 커뮤니티 사용을 더욱 촉진하기 위해, T2I 모델 출력의 오프라인 평가를 가능하게 하는 견고한 평가 모델을 훈련시켰습니다. 오픈소스 및 폐쇄형 T2I 모델에 대한 종합적인 벤치마킹을 통해, 다양한 측면에서 그들의 강점과 약점을 체계적으로 밝혀냈습니다.
English
Recent progress in text-to-image (T2I) generation underscores the importance of reliable benchmarks in evaluating how accurately generated images reflect the semantics of their textual prompt. However, (1) existing benchmarks lack the diversity of prompt scenarios and multilingual support, both essential for real-world applicability; (2) they offer only coarse evaluations across primary dimensions, covering a narrow range of sub-dimensions, and fall short in fine-grained sub-dimension assessment. To address these limitations, we introduce UniGenBench++, a unified semantic assessment benchmark for T2I generation. Specifically, it comprises 600 prompts organized hierarchically to ensure both coverage and efficiency: (1) spans across diverse real-world scenarios, i.e., 5 main prompt themes and 20 subthemes; (2) comprehensively probes T2I models' semantic consistency over 10 primary and 27 sub evaluation criteria, with each prompt assessing multiple testpoints. To rigorously assess model robustness to variations in language and prompt length, we provide both English and Chinese versions of each prompt in short and long forms. Leveraging the general world knowledge and fine-grained image understanding capabilities of a closed-source Multi-modal Large Language Model (MLLM), i.e., Gemini-2.5-Pro, an effective pipeline is developed for reliable benchmark construction and streamlined model assessment. Moreover, to further facilitate community use, we train a robust evaluation model that enables offline assessment of T2I model outputs. Through comprehensive benchmarking of both open- and closed-sourced T2I models, we systematically reveal their strengths and weaknesses across various aspects.
PDF632October 22, 2025