UniGenBench++: Un Benchmark Unificado de Evaluación Semántica para la Generación de Texto a Imagen
UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation
October 21, 2025
Autores: Yibin Wang, Zhimin Li, Yuhang Zang, Jiazi Bu, Yujie Zhou, Yi Xin, Junjun He, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang
cs.AI
Resumen
Los avances recientes en la generación de texto a imagen (T2I) destacan la importancia de contar con puntos de referencia confiables para evaluar con qué precisión las imágenes generadas reflejan la semántica de sus indicaciones textuales. Sin embargo, (1) los puntos de referencia existentes carecen de la diversidad de escenarios de indicaciones y del soporte multilingüe, ambos esenciales para la aplicabilidad en el mundo real; (2) ofrecen solo evaluaciones generales en dimensiones principales, cubriendo un rango limitado de subdimensiones, y no logran una evaluación detallada en subdimensiones específicas. Para abordar estas limitaciones, presentamos UniGenBench++, un punto de referencia unificado de evaluación semántica para la generación T2I. Específicamente, consta de 600 indicaciones organizadas jerárquicamente para garantizar tanto cobertura como eficiencia: (1) abarca diversos escenarios del mundo real, es decir, 5 temas principales de indicaciones y 20 subtemas; (2) explora exhaustivamente la consistencia semántica de los modelos T2I en 10 criterios principales y 27 subcriterios de evaluación, con cada indicación evaluando múltiples puntos de prueba. Para evaluar rigurosamente la robustez de los modelos frente a variaciones en el idioma y la longitud de las indicaciones, proporcionamos versiones en inglés y chino de cada indicación en formas cortas y largas. Aprovechando el conocimiento general del mundo y las capacidades de comprensión detallada de imágenes de un Modelo de Lenguaje Multimodal (MLLM) de código cerrado, es decir, Gemini-2.5-Pro, se desarrolla una canalización efectiva para la construcción confiable del punto de referencia y la evaluación simplificada de modelos. Además, para facilitar aún más el uso comunitario, entrenamos un modelo de evaluación robusto que permite la evaluación sin conexión de las salidas de los modelos T2I. A través de una evaluación integral de modelos T2I tanto de código abierto como cerrado, revelamos sistemáticamente sus fortalezas y debilidades en diversos aspectos.
English
Recent progress in text-to-image (T2I) generation underscores the importance
of reliable benchmarks in evaluating how accurately generated images reflect
the semantics of their textual prompt. However, (1) existing benchmarks lack
the diversity of prompt scenarios and multilingual support, both essential for
real-world applicability; (2) they offer only coarse evaluations across primary
dimensions, covering a narrow range of sub-dimensions, and fall short in
fine-grained sub-dimension assessment. To address these limitations, we
introduce UniGenBench++, a unified semantic assessment benchmark for T2I
generation. Specifically, it comprises 600 prompts organized hierarchically to
ensure both coverage and efficiency: (1) spans across diverse real-world
scenarios, i.e., 5 main prompt themes and 20 subthemes; (2) comprehensively
probes T2I models' semantic consistency over 10 primary and 27 sub evaluation
criteria, with each prompt assessing multiple testpoints. To rigorously assess
model robustness to variations in language and prompt length, we provide both
English and Chinese versions of each prompt in short and long forms. Leveraging
the general world knowledge and fine-grained image understanding capabilities
of a closed-source Multi-modal Large Language Model (MLLM), i.e.,
Gemini-2.5-Pro, an effective pipeline is developed for reliable benchmark
construction and streamlined model assessment. Moreover, to further facilitate
community use, we train a robust evaluation model that enables offline
assessment of T2I model outputs. Through comprehensive benchmarking of both
open- and closed-sourced T2I models, we systematically reveal their strengths
and weaknesses across various aspects.