ChatPaper.aiChatPaper

OneIG-Bench: Omni-dimensionale genuanceerde evaluatie voor beeldgeneratie

OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation

June 9, 2025
Auteurs: Jingjing Chang, Yixiao Fang, Peng Xing, Shuhan Wu, Wei Cheng, Rui Wang, Xianfang Zeng, Gang Yu, Hai-Bao Chen
cs.AI

Samenvatting

Text-to-image (T2I)-modellen hebben aanzienlijke aandacht gekregen voor het genereren van hoogwaardige afbeeldingen die aansluiten bij tekstprompts. De snelle vooruitgang in T2I-modellen heeft echter beperkingen blootgelegd in vroege benchmarks, die geen uitgebreide evaluaties bevatten, zoals de evaluatie van redenering, tekstweergave en stijl. Opmerkelijk is dat recente state-of-the-art modellen, met hun rijke kennismodelleringscapaciteiten, veelbelovende resultaten laten zien bij afbeeldingsgeneratieproblemen die een sterke redeneervaardigheid vereisen, maar bestaande evaluatiesystemen hebben deze grens nog niet voldoende aangepakt. Om deze hiaten systematisch aan te pakken, introduceren we OneIG-Bench, een zorgvuldig ontworpen, uitgebreid benchmarkraamwerk voor gedetailleerde evaluatie van T2I-modellen op meerdere dimensies, waaronder prompt-afbeelding-alignment, precisie in tekstweergave, redenering-gegenereerde inhoud, stilisering en diversiteit. Door de evaluatie te structureren, maakt deze benchmark een diepgaande analyse van modelprestaties mogelijk, waardoor onderzoekers en praktijkmensen sterke punten en knelpunten in de volledige pijplijn van afbeeldingsgeneratie kunnen identificeren. Specifiek stelt OneIG-Bench flexibele evaluatie mogelijk door gebruikers toe te staan zich te richten op een specifieke evaluatiesubset. In plaats van afbeeldingen te genereren voor de volledige set prompts, kunnen gebruikers afbeeldingen genereren voor alleen de prompts die zijn gekoppeld aan de geselecteerde dimensie en de bijbehorende evaluatie dienovereenkomstig voltooien. Onze codebase en dataset zijn nu publiekelijk beschikbaar om reproduceerbare evaluatiestudies en kruismodelvergelijkingen binnen de T2I-onderzoeksgemeenschap te vergemakkelijken.
English
Text-to-image (T2I) models have garnered significant attention for generating high-quality images aligned with text prompts. However, rapid T2I model advancements reveal limitations in early benchmarks, lacking comprehensive evaluations, for example, the evaluation on reasoning, text rendering and style. Notably, recent state-of-the-art models, with their rich knowledge modeling capabilities, show promising results on the image generation problems requiring strong reasoning ability, yet existing evaluation systems have not adequately addressed this frontier. To systematically address these gaps, we introduce OneIG-Bench, a meticulously designed comprehensive benchmark framework for fine-grained evaluation of T2I models across multiple dimensions, including prompt-image alignment, text rendering precision, reasoning-generated content, stylization, and diversity. By structuring the evaluation, this benchmark enables in-depth analysis of model performance, helping researchers and practitioners pinpoint strengths and bottlenecks in the full pipeline of image generation. Specifically, OneIG-Bench enables flexible evaluation by allowing users to focus on a particular evaluation subset. Instead of generating images for the entire set of prompts, users can generate images only for the prompts associated with the selected dimension and complete the corresponding evaluation accordingly. Our codebase and dataset are now publicly available to facilitate reproducible evaluation studies and cross-model comparisons within the T2I research community.
PDF382June 10, 2025