OneIG-Bench : Évaluation Omni-dimensionnelle et Nuancée pour la Génération d'Images

papers.abstract

Les modèles de génération d'images à partir de texte (Text-to-Image, T2I) ont suscité un intérêt considérable pour leur capacité à produire des images de haute qualité alignées avec des descriptions textuelles. Cependant, les avancées rapides des modèles T2I ont mis en lumière les limites des premiers benchmarks, qui manquaient d'évaluations exhaustives, notamment en ce qui concerne le raisonnement, le rendu du texte et le style. Il est à noter que les modèles récents, dotés de capacités de modélisation de connaissances riches, montrent des résultats prometteurs sur les problèmes de génération d'images nécessitant une forte capacité de raisonnement, mais les systèmes d'évaluation existants n'ont pas suffisamment abordé cette frontière. Pour combler ces lacunes de manière systématique, nous présentons OneIG-Bench, un cadre de benchmark méticuleusement conçu pour l'évaluation fine des modèles T2I à travers plusieurs dimensions, incluant l'alignement texte-image, la précision du rendu textuel, le contenu généré par raisonnement, la stylisation et la diversité. En structurant l'évaluation, ce benchmark permet une analyse approfondie des performances des modèles, aidant les chercheurs et praticiens à identifier les points forts et les goulots d'étranglement dans l'ensemble du pipeline de génération d'images. Plus précisément, OneIG-Bench permet une évaluation flexible en permettant aux utilisateurs de se concentrer sur un sous-ensemble d'évaluation spécifique. Au lieu de générer des images pour l'ensemble des descriptions textuelles, les utilisateurs peuvent générer des images uniquement pour les descriptions associées à la dimension sélectionnée et effectuer l'évaluation correspondante. Notre base de code et notre jeu de données sont désormais accessibles au public pour faciliter les études d'évaluation reproductibles et les comparaisons inter-modèles au sein de la communauté de recherche T2I.

English

Text-to-image (T2I) models have garnered significant attention for generating high-quality images aligned with text prompts. However, rapid T2I model advancements reveal limitations in early benchmarks, lacking comprehensive evaluations, for example, the evaluation on reasoning, text rendering and style. Notably, recent state-of-the-art models, with their rich knowledge modeling capabilities, show promising results on the image generation problems requiring strong reasoning ability, yet existing evaluation systems have not adequately addressed this frontier. To systematically address these gaps, we introduce OneIG-Bench, a meticulously designed comprehensive benchmark framework for fine-grained evaluation of T2I models across multiple dimensions, including prompt-image alignment, text rendering precision, reasoning-generated content, stylization, and diversity. By structuring the evaluation, this benchmark enables in-depth analysis of model performance, helping researchers and practitioners pinpoint strengths and bottlenecks in the full pipeline of image generation. Specifically, OneIG-Bench enables flexible evaluation by allowing users to focus on a particular evaluation subset. Instead of generating images for the entire set of prompts, users can generate images only for the prompts associated with the selected dimension and complete the corresponding evaluation accordingly. Our codebase and dataset are now publicly available to facilitate reproducible evaluation studies and cross-model comparisons within the T2I research community.

OneIG-Bench : Évaluation Omni-dimensionnelle et Nuancée pour la Génération d'Images

OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation

papers.abstract

Support