UniGenBench++: Um Benchmark Unificado de Avaliação Semântica para Geração de Texto em Imagem
UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation
October 21, 2025
Autores: Yibin Wang, Zhimin Li, Yuhang Zang, Jiazi Bu, Yujie Zhou, Yi Xin, Junjun He, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang
cs.AI
Resumo
Os avanços recentes na geração de texto para imagem (T2I) destacam a importância de benchmarks confiáveis para avaliar com que precisão as imagens geradas refletem a semântica de seus prompts textuais. No entanto, (1) os benchmarks existentes carecem de diversidade de cenários de prompts e suporte multilíngue, ambos essenciais para a aplicabilidade no mundo real; (2) eles oferecem apenas avaliações grosseiras nas dimensões principais, cobrindo uma gama estreita de subdimensões, e falham em avaliações refinadas de subdimensões. Para abordar essas limitações, introduzimos o UniGenBench++, um benchmark unificado de avaliação semântica para geração T2I. Especificamente, ele compreende 600 prompts organizados hierarquicamente para garantir cobertura e eficiência: (1) abrange diversos cenários do mundo real, ou seja, 5 temas principais de prompts e 20 subtemas; (2) investiga de forma abrangente a consistência semântica dos modelos T2I em 10 critérios primários e 27 subcritérios de avaliação, com cada prompt avaliando múltiplos pontos de teste. Para avaliar rigorosamente a robustez dos modelos a variações de idioma e comprimento de prompt, fornecemos versões em inglês e chinês de cada prompt, em formatos curtos e longos. Aproveitando o conhecimento geral do mundo e as capacidades refinadas de compreensão de imagens de um Modelo de Linguagem Multimodal de Grande Escala (MLLM) de código fechado, ou seja, o Gemini-2.5-Pro, desenvolvemos um pipeline eficaz para a construção confiável do benchmark e a avaliação simplificada de modelos. Além disso, para facilitar ainda mais o uso pela comunidade, treinamos um modelo de avaliação robusto que permite a avaliação offline das saídas dos modelos T2I. Por meio de benchmarking abrangente de modelos T2I de código aberto e fechado, revelamos sistematicamente seus pontos fortes e fracos em vários aspectos.
English
Recent progress in text-to-image (T2I) generation underscores the importance
of reliable benchmarks in evaluating how accurately generated images reflect
the semantics of their textual prompt. However, (1) existing benchmarks lack
the diversity of prompt scenarios and multilingual support, both essential for
real-world applicability; (2) they offer only coarse evaluations across primary
dimensions, covering a narrow range of sub-dimensions, and fall short in
fine-grained sub-dimension assessment. To address these limitations, we
introduce UniGenBench++, a unified semantic assessment benchmark for T2I
generation. Specifically, it comprises 600 prompts organized hierarchically to
ensure both coverage and efficiency: (1) spans across diverse real-world
scenarios, i.e., 5 main prompt themes and 20 subthemes; (2) comprehensively
probes T2I models' semantic consistency over 10 primary and 27 sub evaluation
criteria, with each prompt assessing multiple testpoints. To rigorously assess
model robustness to variations in language and prompt length, we provide both
English and Chinese versions of each prompt in short and long forms. Leveraging
the general world knowledge and fine-grained image understanding capabilities
of a closed-source Multi-modal Large Language Model (MLLM), i.e.,
Gemini-2.5-Pro, an effective pipeline is developed for reliable benchmark
construction and streamlined model assessment. Moreover, to further facilitate
community use, we train a robust evaluation model that enables offline
assessment of T2I model outputs. Through comprehensive benchmarking of both
open- and closed-sourced T2I models, we systematically reveal their strengths
and weaknesses across various aspects.