OneIG-Bench: Omni-dimensionale, differenzierte Bewertung für die Bildgenerierung

papers.abstract

Text-to-Image (T2I)-Modelle haben aufgrund ihrer Fähigkeit, hochwertige Bilder in Übereinstimmung mit Textanweisungen zu generieren, erhebliche Aufmerksamkeit erregt. Die rasanten Fortschritte bei T2I-Modellen haben jedoch Schwächen in frühen Benchmark-Tests offengelegt, die keine umfassenden Bewertungen, beispielsweise in Bezug auf logisches Denken, Textdarstellung und Stil, bieten. Insbesondere zeigen aktuelle State-of-the-Art-Modelle mit ihren ausgeprägten Fähigkeiten zur Wissensmodellierung vielversprechende Ergebnisse bei Bildgenerierungsproblemen, die ein starkes logisches Denken erfordern. Dennoch haben bestehende Bewertungssysteme diese neue Entwicklung nicht ausreichend berücksichtigt. Um diese Lücken systematisch zu schließen, stellen wir OneIG-Bench vor, ein sorgfältig konzipiertes, umfassendes Benchmark-Framework zur feingranularen Bewertung von T2I-Modellen in mehreren Dimensionen, darunter die Übereinstimmung von Textanweisung und Bild, die Präzision der Textdarstellung, logisch generierte Inhalte, Stilisierung und Vielfalt. Durch die strukturierte Bewertung ermöglicht dieser Benchmark eine tiefgehende Analyse der Modellleistung, die Forschern und Praktikern hilft, Stärken und Engpässe im gesamten Bildgenerierungsprozess zu identifizieren. Insbesondere ermöglicht OneIG-Bench eine flexible Bewertung, indem Benutzer sich auf einen bestimmten Bewertungsbereich konzentrieren können. Anstatt Bilder für den gesamten Satz von Textanweisungen zu generieren, können Benutzer Bilder nur für die Anweisungen generieren, die mit der ausgewählten Dimension verknüpft sind, und die entsprechende Bewertung durchführen. Unser Code und Datensatz sind nun öffentlich verfügbar, um reproduzierbare Bewertungsstudien und modellübergreifende Vergleiche innerhalb der T2I-Forschungsgemeinschaft zu erleichtern.

English

Text-to-image (T2I) models have garnered significant attention for generating high-quality images aligned with text prompts. However, rapid T2I model advancements reveal limitations in early benchmarks, lacking comprehensive evaluations, for example, the evaluation on reasoning, text rendering and style. Notably, recent state-of-the-art models, with their rich knowledge modeling capabilities, show promising results on the image generation problems requiring strong reasoning ability, yet existing evaluation systems have not adequately addressed this frontier. To systematically address these gaps, we introduce OneIG-Bench, a meticulously designed comprehensive benchmark framework for fine-grained evaluation of T2I models across multiple dimensions, including prompt-image alignment, text rendering precision, reasoning-generated content, stylization, and diversity. By structuring the evaluation, this benchmark enables in-depth analysis of model performance, helping researchers and practitioners pinpoint strengths and bottlenecks in the full pipeline of image generation. Specifically, OneIG-Bench enables flexible evaluation by allowing users to focus on a particular evaluation subset. Instead of generating images for the entire set of prompts, users can generate images only for the prompts associated with the selected dimension and complete the corresponding evaluation accordingly. Our codebase and dataset are now publicly available to facilitate reproducible evaluation studies and cross-model comparisons within the T2I research community.

OneIG-Bench: Omni-dimensionale, differenzierte Bewertung für die Bildgenerierung

OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation

papers.abstract

Support