OneIG-Bench: Valutazione Omni-dimensionale e Sfumata per la Generazione di Immagini

Abstract

I modelli Text-to-Image (T2I) hanno attirato notevole attenzione per la generazione di immagini di alta qualità allineate ai prompt testuali. Tuttavia, i rapidi progressi nei modelli T2I hanno rivelato limitazioni nei benchmark iniziali, che mancano di valutazioni complete, ad esempio, nella valutazione del ragionamento, del rendering del testo e dello stile. In particolare, i recenti modelli all'avanguardia, con le loro avanzate capacità di modellazione della conoscenza, mostrano risultati promettenti nei problemi di generazione di immagini che richiedono una forte capacità di ragionamento, ma i sistemi di valutazione esistenti non hanno adeguatamente affrontato questa frontiera. Per colmare sistematicamente queste lacune, introduciamo OneIG-Bench, un framework di benchmark completo e meticolosamente progettato per la valutazione granulare dei modelli T2I su più dimensioni, tra cui l'allineamento prompt-immagine, la precisione del rendering del testo, il contenuto generato dal ragionamento, la stilizzazione e la diversità. Strutturando la valutazione, questo benchmark consente un'analisi approfondita delle prestazioni del modello, aiutando ricercatori e professionisti a identificare punti di forza e colli di bottiglia nell'intero processo di generazione delle immagini. Nello specifico, OneIG-Bench consente una valutazione flessibile permettendo agli utenti di concentrarsi su un sottoinsieme specifico di valutazione. Invece di generare immagini per l'intero set di prompt, gli utenti possono generare immagini solo per i prompt associati alla dimensione selezionata e completare la valutazione corrispondente di conseguenza. Il nostro codice e dataset sono ora pubblicamente disponibili per facilitare studi di valutazione riproducibili e confronti incrociati tra modelli all'interno della comunità di ricerca T2I.

English

Text-to-image (T2I) models have garnered significant attention for generating high-quality images aligned with text prompts. However, rapid T2I model advancements reveal limitations in early benchmarks, lacking comprehensive evaluations, for example, the evaluation on reasoning, text rendering and style. Notably, recent state-of-the-art models, with their rich knowledge modeling capabilities, show promising results on the image generation problems requiring strong reasoning ability, yet existing evaluation systems have not adequately addressed this frontier. To systematically address these gaps, we introduce OneIG-Bench, a meticulously designed comprehensive benchmark framework for fine-grained evaluation of T2I models across multiple dimensions, including prompt-image alignment, text rendering precision, reasoning-generated content, stylization, and diversity. By structuring the evaluation, this benchmark enables in-depth analysis of model performance, helping researchers and practitioners pinpoint strengths and bottlenecks in the full pipeline of image generation. Specifically, OneIG-Bench enables flexible evaluation by allowing users to focus on a particular evaluation subset. Instead of generating images for the entire set of prompts, users can generate images only for the prompts associated with the selected dimension and complete the corresponding evaluation accordingly. Our codebase and dataset are now publicly available to facilitate reproducible evaluation studies and cross-model comparisons within the T2I research community.

OneIG-Bench: Valutazione Omni-dimensionale e Sfumata per la Generazione di Immagini

OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation

Abstract

Support