UniGenBench++: Унифицированный семантический бенчмарк для оценки генерации изображений по тексту
UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation
October 21, 2025
Авторы: Yibin Wang, Zhimin Li, Yuhang Zang, Jiazi Bu, Yujie Zhou, Yi Xin, Junjun He, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang
cs.AI
Аннотация
Недавние достижения в области генерации изображений по текстовому описанию (Text-to-Image, T2I) подчеркивают важность надежных эталонов для оценки того, насколько точно созданные изображения отражают семантику текстового запроса. Однако (1) существующие эталоны недостаточно разнообразны в плане сценариев запросов и поддержки многоязычности, что критически важно для практического применения; (2) они предлагают лишь грубую оценку по основным параметрам, охватывая узкий диапазон подпараметров, и не справляются с детализированной оценкой на уровне подпараметров. Чтобы устранить эти ограничения, мы представляем UniGenBench++ — унифицированный эталон для семантической оценки генерации T2I. В частности, он включает 600 запросов, организованных иерархически для обеспечения как охвата, так и эффективности: (1) охватывает разнообразные реальные сценарии, включая 5 основных тем и 20 подтем запросов; (2) всесторонне исследует семантическую согласованность моделей T2I по 10 основным и 27 дополнительным критериям оценки, причем каждый запрос проверяет несколько тестовых точек. Для строгой оценки устойчивости моделей к вариациям языка и длины запроса мы предоставляем версии каждого запроса на английском и китайском языках в краткой и длинной формах. Используя общие знания о мире и способность к детализированному пониманию изображений, предоставляемые закрытой многомодальной крупной языковой моделью (MLLM), а именно Gemini-2.5-Pro, мы разработали эффективный конвейер для надежного построения эталона и упрощенной оценки моделей. Кроме того, чтобы дополнительно облегчить использование сообществом, мы обучаем надежную модель оценки, которая позволяет проводить офлайн-оценку выходных данных моделей T2I. Проведя всестороннее тестирование как открытых, так и закрытых моделей T2I, мы систематически выявляем их сильные и слабые стороны в различных аспектах.
English
Recent progress in text-to-image (T2I) generation underscores the importance
of reliable benchmarks in evaluating how accurately generated images reflect
the semantics of their textual prompt. However, (1) existing benchmarks lack
the diversity of prompt scenarios and multilingual support, both essential for
real-world applicability; (2) they offer only coarse evaluations across primary
dimensions, covering a narrow range of sub-dimensions, and fall short in
fine-grained sub-dimension assessment. To address these limitations, we
introduce UniGenBench++, a unified semantic assessment benchmark for T2I
generation. Specifically, it comprises 600 prompts organized hierarchically to
ensure both coverage and efficiency: (1) spans across diverse real-world
scenarios, i.e., 5 main prompt themes and 20 subthemes; (2) comprehensively
probes T2I models' semantic consistency over 10 primary and 27 sub evaluation
criteria, with each prompt assessing multiple testpoints. To rigorously assess
model robustness to variations in language and prompt length, we provide both
English and Chinese versions of each prompt in short and long forms. Leveraging
the general world knowledge and fine-grained image understanding capabilities
of a closed-source Multi-modal Large Language Model (MLLM), i.e.,
Gemini-2.5-Pro, an effective pipeline is developed for reliable benchmark
construction and streamlined model assessment. Moreover, to further facilitate
community use, we train a robust evaluation model that enables offline
assessment of T2I model outputs. Through comprehensive benchmarking of both
open- and closed-sourced T2I models, we systematically reveal their strengths
and weaknesses across various aspects.