ChatPaper.aiChatPaper

UniGenBench++: Een Uniforme Semantische Evaluatiebenchmark voor Tekst-naar-Beeld Generatie

UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation

October 21, 2025
Auteurs: Yibin Wang, Zhimin Li, Yuhang Zang, Jiazi Bu, Yujie Zhou, Yi Xin, Junjun He, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang
cs.AI

Samenvatting

Recente vooruitgang in tekst-naar-beeld (T2I) generatie benadrukt het belang van betrouwbare benchmarks om te evalueren hoe nauwkeurig gegenereerde afbeeldingen de semantiek van hun tekstuele prompt weerspiegelen. Echter, (1) bestaande benchmarks missen de diversiteit van promptsituaties en meertalige ondersteuning, beide essentieel voor praktische toepasbaarheid; (2) ze bieden alleen grove evaluaties over primaire dimensies, waarbij een beperkt aantal subdimensies wordt behandeld, en schieten tekort in fijnmazige subdimensiebeoordeling. Om deze beperkingen aan te pakken, introduceren we UniGenBench++, een uniforme semantische evaluatiebenchmark voor T2I-generatie. Specifiek bestaat het uit 600 prompts die hiërarchisch zijn georganiseerd om zowel dekking als efficiëntie te waarborgen: (1) het omvat diverse real-world scenario's, d.w.z. 5 hoofdthema's en 20 subthema's; (2) het onderzoekt uitgebreid de semantische consistentie van T2I-modellen over 10 primaire en 27 subevaluatiecriteria, waarbij elke prompt meerdere testpunten beoordeelt. Om de robuustheid van modellen tegen variaties in taal en promptlengte rigoureus te beoordelen, bieden we zowel Engelse als Chinese versies van elke prompt in korte en lange vormen. Door gebruik te maken van de algemene wereldkennis en fijnmazige beeldbegripcapaciteiten van een closed-source Multi-modale Grote Taal Model (MLLM), d.w.z. Gemini-2.5-Pro, is een effectieve pijplijn ontwikkeld voor betrouwbare benchmarkconstructie en gestroomlijnde modelevaluatie. Bovendien, om het gebruik door de gemeenschap verder te vergemakkelijken, trainen we een robuust evaluatiemodel dat offline beoordeling van T2I-modeloutputs mogelijk maakt. Door uitgebreide benchmarking van zowel open-source als closed-source T2I-modellen, onthullen we systematisch hun sterke en zwakke punten op verschillende aspecten.
English
Recent progress in text-to-image (T2I) generation underscores the importance of reliable benchmarks in evaluating how accurately generated images reflect the semantics of their textual prompt. However, (1) existing benchmarks lack the diversity of prompt scenarios and multilingual support, both essential for real-world applicability; (2) they offer only coarse evaluations across primary dimensions, covering a narrow range of sub-dimensions, and fall short in fine-grained sub-dimension assessment. To address these limitations, we introduce UniGenBench++, a unified semantic assessment benchmark for T2I generation. Specifically, it comprises 600 prompts organized hierarchically to ensure both coverage and efficiency: (1) spans across diverse real-world scenarios, i.e., 5 main prompt themes and 20 subthemes; (2) comprehensively probes T2I models' semantic consistency over 10 primary and 27 sub evaluation criteria, with each prompt assessing multiple testpoints. To rigorously assess model robustness to variations in language and prompt length, we provide both English and Chinese versions of each prompt in short and long forms. Leveraging the general world knowledge and fine-grained image understanding capabilities of a closed-source Multi-modal Large Language Model (MLLM), i.e., Gemini-2.5-Pro, an effective pipeline is developed for reliable benchmark construction and streamlined model assessment. Moreover, to further facilitate community use, we train a robust evaluation model that enables offline assessment of T2I model outputs. Through comprehensive benchmarking of both open- and closed-sourced T2I models, we systematically reveal their strengths and weaknesses across various aspects.
PDF632October 22, 2025