OneIG-Bench: Evaluación Omni-dimensional y Matizada para la Generación de Imágenes

Resumen

Los modelos de texto a imagen (T2I) han captado una atención significativa por su capacidad para generar imágenes de alta calidad alineadas con indicaciones de texto. Sin embargo, los rápidos avances en los modelos T2I han revelado limitaciones en los primeros puntos de referencia, los cuales carecen de evaluaciones integrales, como por ejemplo, la evaluación del razonamiento, la representación de texto y el estilo. Cabe destacar que los modelos más recientes de última generación, con sus capacidades avanzadas de modelado de conocimiento, muestran resultados prometedores en problemas de generación de imágenes que requieren una fuerte capacidad de razonamiento, aunque los sistemas de evaluación existentes no han abordado adecuadamente esta frontera. Para abordar sistemáticamente estas brechas, presentamos OneIG-Bench, un marco de referencia integral meticulosamente diseñado para la evaluación detallada de modelos T2I en múltiples dimensiones, incluyendo la alineación entre el texto y la imagen, la precisión en la representación de texto, el contenido generado mediante razonamiento, la estilización y la diversidad. Al estructurar la evaluación, este punto de referencia permite un análisis profundo del rendimiento de los modelos, ayudando a investigadores y profesionales a identificar fortalezas y cuellos de botella en todo el proceso de generación de imágenes. Específicamente, OneIG-Bench permite una evaluación flexible al permitir a los usuarios centrarse en un subconjunto particular de evaluación. En lugar de generar imágenes para todo el conjunto de indicaciones, los usuarios pueden generar imágenes solo para las indicaciones asociadas con la dimensión seleccionada y completar la evaluación correspondiente de manera adecuada. Nuestro código y conjunto de datos están ahora disponibles públicamente para facilitar estudios de evaluación reproducibles y comparaciones entre modelos dentro de la comunidad de investigación en T2I.

English

Text-to-image (T2I) models have garnered significant attention for generating high-quality images aligned with text prompts. However, rapid T2I model advancements reveal limitations in early benchmarks, lacking comprehensive evaluations, for example, the evaluation on reasoning, text rendering and style. Notably, recent state-of-the-art models, with their rich knowledge modeling capabilities, show promising results on the image generation problems requiring strong reasoning ability, yet existing evaluation systems have not adequately addressed this frontier. To systematically address these gaps, we introduce OneIG-Bench, a meticulously designed comprehensive benchmark framework for fine-grained evaluation of T2I models across multiple dimensions, including prompt-image alignment, text rendering precision, reasoning-generated content, stylization, and diversity. By structuring the evaluation, this benchmark enables in-depth analysis of model performance, helping researchers and practitioners pinpoint strengths and bottlenecks in the full pipeline of image generation. Specifically, OneIG-Bench enables flexible evaluation by allowing users to focus on a particular evaluation subset. Instead of generating images for the entire set of prompts, users can generate images only for the prompts associated with the selected dimension and complete the corresponding evaluation accordingly. Our codebase and dataset are now publicly available to facilitate reproducible evaluation studies and cross-model comparisons within the T2I research community.