ChatPaper.aiChatPaper

UniGenBench++: Un Benchmark Unificato per la Valutazione Semantica della Generazione di Immagini da Testo

UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation

October 21, 2025
Autori: Yibin Wang, Zhimin Li, Yuhang Zang, Jiazi Bu, Yujie Zhou, Yi Xin, Junjun He, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang
cs.AI

Abstract

I recenti progressi nella generazione testo-immagine (T2I) sottolineano l'importanza di benchmark affidabili per valutare quanto accuratamente le immagini generate riflettano la semantica del prompt testuale. Tuttavia, (1) i benchmark esistenti mancano di diversità negli scenari di prompt e di supporto multilingue, entrambi essenziali per l'applicabilità nel mondo reale; (2) offrono solo valutazioni grossolane lungo dimensioni primarie, coprendo un ristretto range di sottodimensioni, e sono carenti nella valutazione fine delle sottodimensioni. Per affrontare queste limitazioni, introduciamo UniGenBench++, un benchmark unificato per la valutazione semantica nella generazione T2I. Nello specifico, comprende 600 prompt organizzati gerarchicamente per garantire sia copertura che efficienza: (1) spazia attraverso diversi scenari del mondo reale, ovvero 5 temi principali e 20 sottotemi; (2) esplora in modo completo la coerenza semantica dei modelli T2I su 10 criteri primari e 27 secondari di valutazione, con ciascun prompt che valuta molteplici punti di test. Per valutare rigorosamente la robustezza dei modelli alle variazioni linguistiche e alla lunghezza del prompt, forniamo versioni in inglese e cinese di ciascun prompt in forma breve e lunga. Sfruttando la conoscenza generale del mondo e le capacità di comprensione fine delle immagini di un modello multimodale di linguaggio di grandi dimensioni (MLLM) closed-source, ovvero Gemini-2.5-Pro, è stato sviluppato una pipeline efficace per la costruzione affidabile del benchmark e la valutazione semplificata dei modelli. Inoltre, per facilitare ulteriormente l'uso da parte della comunità, abbiamo addestrato un modello di valutazione robusto che consente la valutazione offline degli output dei modelli T2I. Attraverso un benchmarking completo sia di modelli T2I open-source che closed-source, riveliamo sistematicamente i loro punti di forza e debolezza in vari aspetti.
English
Recent progress in text-to-image (T2I) generation underscores the importance of reliable benchmarks in evaluating how accurately generated images reflect the semantics of their textual prompt. However, (1) existing benchmarks lack the diversity of prompt scenarios and multilingual support, both essential for real-world applicability; (2) they offer only coarse evaluations across primary dimensions, covering a narrow range of sub-dimensions, and fall short in fine-grained sub-dimension assessment. To address these limitations, we introduce UniGenBench++, a unified semantic assessment benchmark for T2I generation. Specifically, it comprises 600 prompts organized hierarchically to ensure both coverage and efficiency: (1) spans across diverse real-world scenarios, i.e., 5 main prompt themes and 20 subthemes; (2) comprehensively probes T2I models' semantic consistency over 10 primary and 27 sub evaluation criteria, with each prompt assessing multiple testpoints. To rigorously assess model robustness to variations in language and prompt length, we provide both English and Chinese versions of each prompt in short and long forms. Leveraging the general world knowledge and fine-grained image understanding capabilities of a closed-source Multi-modal Large Language Model (MLLM), i.e., Gemini-2.5-Pro, an effective pipeline is developed for reliable benchmark construction and streamlined model assessment. Moreover, to further facilitate community use, we train a robust evaluation model that enables offline assessment of T2I model outputs. Through comprehensive benchmarking of both open- and closed-sourced T2I models, we systematically reveal their strengths and weaknesses across various aspects.
PDF632October 22, 2025