ChatPaper.aiChatPaper

UniGenBench++: Ein einheitlicher semantischer Evaluierungs-Benchmark für die Text-zu-Bild-Generierung

UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation

October 21, 2025
papers.authors: Yibin Wang, Zhimin Li, Yuhang Zang, Jiazi Bu, Yujie Zhou, Yi Xin, Junjun He, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang
cs.AI

papers.abstract

Jüngste Fortschritte in der Text-zu-Bild (T2I)-Generierung unterstreichen die Bedeutung zuverlässiger Benchmarks, um zu bewerten, wie genau generierte Bilder die Semantik ihrer textuellen Eingabeaufforderungen widerspiegeln. Allerdings (1) mangelt es bestehenden Benchmarks an der Vielfalt der Eingabeaufforderungsszenarien und mehrsprachiger Unterstützung, beides wesentlich für die praktische Anwendbarkeit; (2) bieten sie nur grobe Bewertungen über primäre Dimensionen, decken eine begrenzte Bandbreite von Unterdimensionen ab und sind unzureichend in der feingranularen Bewertung von Unterdimensionen. Um diese Einschränkungen zu überwinden, führen wir UniGenBench++ ein, einen einheitlichen semantischen Bewertungsbenchmark für die T2I-Generierung. Konkret umfasst er 600 hierarchisch organisierte Eingabeaufforderungen, um sowohl Abdeckung als auch Effizienz zu gewährleisten: (1) erstreckt sich über diverse reale Szenarien, d.h. 5 Hauptthemen und 20 Unterthemen; (2) untersucht umfassend die semantische Konsistenz von T2I-Modellen über 10 primäre und 27 untergeordnete Bewertungskriterien, wobei jede Eingabeaufforderung mehrere Testpunkte bewertet. Um die Robustheit der Modelle gegenüber Variationen in Sprache und Länge der Eingabeaufforderung rigoros zu bewerten, bieten wir jede Eingabeaufforderung in kurzer und langer Form sowohl auf Englisch als auch auf Chinesisch an. Unter Nutzung des allgemeinen Weltwissens und der feingranularen Bildverständnisfähigkeiten eines geschlossenen Multi-modalen Großen Sprachmodells (MLLM), d.h. Gemini-2.5-Pro, wird eine effektive Pipeline für die zuverlässige Benchmark-Konstruktion und die effiziente Modellbewertung entwickelt. Darüber hinaus trainieren wir ein robustes Bewertungsmodell, das die Offline-Bewertung von T2I-Modellausgaben ermöglicht, um die Nutzung durch die Community weiter zu erleichtern. Durch umfassende Benchmarking-Studien sowohl von Open-Source- als auch von Closed-Source-T2I-Modellen decken wir systematisch deren Stärken und Schwächen in verschiedenen Aspekten auf.
English
Recent progress in text-to-image (T2I) generation underscores the importance of reliable benchmarks in evaluating how accurately generated images reflect the semantics of their textual prompt. However, (1) existing benchmarks lack the diversity of prompt scenarios and multilingual support, both essential for real-world applicability; (2) they offer only coarse evaluations across primary dimensions, covering a narrow range of sub-dimensions, and fall short in fine-grained sub-dimension assessment. To address these limitations, we introduce UniGenBench++, a unified semantic assessment benchmark for T2I generation. Specifically, it comprises 600 prompts organized hierarchically to ensure both coverage and efficiency: (1) spans across diverse real-world scenarios, i.e., 5 main prompt themes and 20 subthemes; (2) comprehensively probes T2I models' semantic consistency over 10 primary and 27 sub evaluation criteria, with each prompt assessing multiple testpoints. To rigorously assess model robustness to variations in language and prompt length, we provide both English and Chinese versions of each prompt in short and long forms. Leveraging the general world knowledge and fine-grained image understanding capabilities of a closed-source Multi-modal Large Language Model (MLLM), i.e., Gemini-2.5-Pro, an effective pipeline is developed for reliable benchmark construction and streamlined model assessment. Moreover, to further facilitate community use, we train a robust evaluation model that enables offline assessment of T2I model outputs. Through comprehensive benchmarking of both open- and closed-sourced T2I models, we systematically reveal their strengths and weaknesses across various aspects.
PDF632October 22, 2025