OneIG-Bench: Avaliação Omni-dimensional e Nuanceada para Geração de Imagens

Resumo

Modelos de texto para imagem (T2I) têm atraído atenção significativa por gerarem imagens de alta qualidade alinhadas com prompts de texto. No entanto, os rápidos avanços nos modelos T2I revelam limitações nos benchmarks iniciais, que carecem de avaliações abrangentes, por exemplo, na avaliação de raciocínio, renderização de texto e estilo. Notavelmente, os modelos state-of-the-art recentes, com suas capacidades avançadas de modelagem de conhecimento, mostram resultados promissores em problemas de geração de imagens que exigem forte capacidade de raciocínio, mas os sistemas de avaliação existentes não abordaram adequadamente essa fronteira. Para abordar sistematicamente essas lacunas, introduzimos o OneIG-Bench, um framework de benchmark meticulosamente projetado para avaliação detalhada de modelos T2I em múltiplas dimensões, incluindo alinhamento prompt-imagem, precisão na renderização de texto, conteúdo gerado por raciocínio, estilização e diversidade. Ao estruturar a avaliação, este benchmark permite uma análise aprofundada do desempenho dos modelos, ajudando pesquisadores e profissionais a identificar pontos fortes e gargalos em todo o pipeline de geração de imagens. Especificamente, o OneIG-Bench permite uma avaliação flexível, permitindo que os usuários se concentrem em um subconjunto específico de avaliação. Em vez de gerar imagens para todo o conjunto de prompts, os usuários podem gerar imagens apenas para os prompts associados à dimensão selecionada e completar a avaliação correspondente de acordo. Nossa base de código e conjunto de dados estão agora publicamente disponíveis para facilitar estudos de avaliação reproduzíveis e comparações entre modelos dentro da comunidade de pesquisa em T2I.

English

Text-to-image (T2I) models have garnered significant attention for generating high-quality images aligned with text prompts. However, rapid T2I model advancements reveal limitations in early benchmarks, lacking comprehensive evaluations, for example, the evaluation on reasoning, text rendering and style. Notably, recent state-of-the-art models, with their rich knowledge modeling capabilities, show promising results on the image generation problems requiring strong reasoning ability, yet existing evaluation systems have not adequately addressed this frontier. To systematically address these gaps, we introduce OneIG-Bench, a meticulously designed comprehensive benchmark framework for fine-grained evaluation of T2I models across multiple dimensions, including prompt-image alignment, text rendering precision, reasoning-generated content, stylization, and diversity. By structuring the evaluation, this benchmark enables in-depth analysis of model performance, helping researchers and practitioners pinpoint strengths and bottlenecks in the full pipeline of image generation. Specifically, OneIG-Bench enables flexible evaluation by allowing users to focus on a particular evaluation subset. Instead of generating images for the entire set of prompts, users can generate images only for the prompts associated with the selected dimension and complete the corresponding evaluation accordingly. Our codebase and dataset are now publicly available to facilitate reproducible evaluation studies and cross-model comparisons within the T2I research community.

OneIG-Bench: Avaliação Omni-dimensional e Nuanceada para Geração de Imagens

OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation

Resumo

Support