UniGenBench++ : Un Benchmark Unifié d'Évaluation Sémantique pour la Génération de Texte à Image
UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation
October 21, 2025
papers.authors: Yibin Wang, Zhimin Li, Yuhang Zang, Jiazi Bu, Yujie Zhou, Yi Xin, Junjun He, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang
cs.AI
papers.abstract
Les progrès récents dans la génération de texte-à-image (T2I) soulignent l'importance de référentiels fiables pour évaluer la précision avec laquelle les images générées reflètent la sémantique de leur description textuelle. Cependant, (1) les référentiels existants manquent de diversité dans les scénarios de prompts et de support multilingue, deux éléments essentiels pour une applicabilité dans le monde réel ; (2) ils offrent des évaluations grossières sur les dimensions principales, couvrant une gamme étroite de sous-dimensions, et sont insuffisants pour une évaluation fine des sous-dimensions. Pour répondre à ces limites, nous introduisons UniGenBench++, un référentiel unifié d'évaluation sémantique pour la génération T2I. Concrètement, il comprend 600 prompts organisés hiérarchiquement pour assurer à la fois couverture et efficacité : (1) il s'étend sur divers scénarios du monde réel, c'est-à-dire 5 thèmes principaux de prompts et 20 sous-thèmes ; (2) il explore de manière exhaustive la cohérence sémantique des modèles T2I sur 10 critères principaux et 27 sous-critères d'évaluation, chaque prompt évaluant plusieurs points de test. Pour évaluer rigoureusement la robustesse des modèles face aux variations linguistiques et à la longueur des prompts, nous fournissons des versions courtes et longues de chaque prompt en anglais et en chinois. En exploitant les connaissances générales du monde et les capacités de compréhension fine des images d'un modèle de langage multimodal (MLLM) propriétaire, à savoir Gemini-2.5-Pro, un pipeline efficace est développé pour la construction fiable du référentiel et l'évaluation simplifiée des modèles. De plus, pour faciliter davantage l'utilisation par la communauté, nous entraînons un modèle d'évaluation robuste permettant une évaluation hors ligne des sorties des modèles T2I. Grâce à un benchmarking complet des modèles T2I open-source et propriétaires, nous révélons systématiquement leurs forces et faiblesses sur divers aspects.
English
Recent progress in text-to-image (T2I) generation underscores the importance
of reliable benchmarks in evaluating how accurately generated images reflect
the semantics of their textual prompt. However, (1) existing benchmarks lack
the diversity of prompt scenarios and multilingual support, both essential for
real-world applicability; (2) they offer only coarse evaluations across primary
dimensions, covering a narrow range of sub-dimensions, and fall short in
fine-grained sub-dimension assessment. To address these limitations, we
introduce UniGenBench++, a unified semantic assessment benchmark for T2I
generation. Specifically, it comprises 600 prompts organized hierarchically to
ensure both coverage and efficiency: (1) spans across diverse real-world
scenarios, i.e., 5 main prompt themes and 20 subthemes; (2) comprehensively
probes T2I models' semantic consistency over 10 primary and 27 sub evaluation
criteria, with each prompt assessing multiple testpoints. To rigorously assess
model robustness to variations in language and prompt length, we provide both
English and Chinese versions of each prompt in short and long forms. Leveraging
the general world knowledge and fine-grained image understanding capabilities
of a closed-source Multi-modal Large Language Model (MLLM), i.e.,
Gemini-2.5-Pro, an effective pipeline is developed for reliable benchmark
construction and streamlined model assessment. Moreover, to further facilitate
community use, we train a robust evaluation model that enables offline
assessment of T2I model outputs. Through comprehensive benchmarking of both
open- and closed-sourced T2I models, we systematically reveal their strengths
and weaknesses across various aspects.