OneIG-Bench: Valutazione Omni-dimensionale e Sfumata per la Generazione di Immagini
OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation
June 9, 2025
Autori: Jingjing Chang, Yixiao Fang, Peng Xing, Shuhan Wu, Wei Cheng, Rui Wang, Xianfang Zeng, Gang Yu, Hai-Bao Chen
cs.AI
Abstract
I modelli Text-to-Image (T2I) hanno attirato notevole attenzione per la generazione di immagini di alta qualità allineate ai prompt testuali. Tuttavia, i rapidi progressi nei modelli T2I hanno rivelato limitazioni nei benchmark iniziali, che mancano di valutazioni complete, ad esempio, nella valutazione del ragionamento, del rendering del testo e dello stile. In particolare, i recenti modelli all'avanguardia, con le loro avanzate capacità di modellazione della conoscenza, mostrano risultati promettenti nei problemi di generazione di immagini che richiedono una forte capacità di ragionamento, ma i sistemi di valutazione esistenti non hanno adeguatamente affrontato questa frontiera. Per colmare sistematicamente queste lacune, introduciamo OneIG-Bench, un framework di benchmark completo e meticolosamente progettato per la valutazione granulare dei modelli T2I su più dimensioni, tra cui l'allineamento prompt-immagine, la precisione del rendering del testo, il contenuto generato dal ragionamento, la stilizzazione e la diversità. Strutturando la valutazione, questo benchmark consente un'analisi approfondita delle prestazioni del modello, aiutando ricercatori e professionisti a identificare punti di forza e colli di bottiglia nell'intero processo di generazione delle immagini. Nello specifico, OneIG-Bench consente una valutazione flessibile permettendo agli utenti di concentrarsi su un sottoinsieme specifico di valutazione. Invece di generare immagini per l'intero set di prompt, gli utenti possono generare immagini solo per i prompt associati alla dimensione selezionata e completare la valutazione corrispondente di conseguenza. Il nostro codice e dataset sono ora pubblicamente disponibili per facilitare studi di valutazione riproducibili e confronti incrociati tra modelli all'interno della comunità di ricerca T2I.
English
Text-to-image (T2I) models have garnered significant attention for generating
high-quality images aligned with text prompts. However, rapid T2I model
advancements reveal limitations in early benchmarks, lacking comprehensive
evaluations, for example, the evaluation on reasoning, text rendering and
style. Notably, recent state-of-the-art models, with their rich knowledge
modeling capabilities, show promising results on the image generation problems
requiring strong reasoning ability, yet existing evaluation systems have not
adequately addressed this frontier. To systematically address these gaps, we
introduce OneIG-Bench, a meticulously designed comprehensive benchmark
framework for fine-grained evaluation of T2I models across multiple dimensions,
including prompt-image alignment, text rendering precision, reasoning-generated
content, stylization, and diversity. By structuring the evaluation, this
benchmark enables in-depth analysis of model performance, helping researchers
and practitioners pinpoint strengths and bottlenecks in the full pipeline of
image generation. Specifically, OneIG-Bench enables flexible evaluation by
allowing users to focus on a particular evaluation subset. Instead of
generating images for the entire set of prompts, users can generate images only
for the prompts associated with the selected dimension and complete the
corresponding evaluation accordingly. Our codebase and dataset are now publicly
available to facilitate reproducible evaluation studies and cross-model
comparisons within the T2I research community.