OneIG-Bench: Evaluación Omni-dimensional y Matizada para la Generación de Imágenes
OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation
June 9, 2025
Autores: Jingjing Chang, Yixiao Fang, Peng Xing, Shuhan Wu, Wei Cheng, Rui Wang, Xianfang Zeng, Gang Yu, Hai-Bao Chen
cs.AI
Resumen
Los modelos de texto a imagen (T2I) han captado una atención significativa por su capacidad para generar imágenes de alta calidad alineadas con indicaciones de texto. Sin embargo, los rápidos avances en los modelos T2I han revelado limitaciones en los primeros puntos de referencia, los cuales carecen de evaluaciones integrales, como por ejemplo, la evaluación del razonamiento, la representación de texto y el estilo. Cabe destacar que los modelos más recientes de última generación, con sus capacidades avanzadas de modelado de conocimiento, muestran resultados prometedores en problemas de generación de imágenes que requieren una fuerte capacidad de razonamiento, aunque los sistemas de evaluación existentes no han abordado adecuadamente esta frontera. Para abordar sistemáticamente estas brechas, presentamos OneIG-Bench, un marco de referencia integral meticulosamente diseñado para la evaluación detallada de modelos T2I en múltiples dimensiones, incluyendo la alineación entre el texto y la imagen, la precisión en la representación de texto, el contenido generado mediante razonamiento, la estilización y la diversidad. Al estructurar la evaluación, este punto de referencia permite un análisis profundo del rendimiento de los modelos, ayudando a investigadores y profesionales a identificar fortalezas y cuellos de botella en todo el proceso de generación de imágenes. Específicamente, OneIG-Bench permite una evaluación flexible al permitir a los usuarios centrarse en un subconjunto particular de evaluación. En lugar de generar imágenes para todo el conjunto de indicaciones, los usuarios pueden generar imágenes solo para las indicaciones asociadas con la dimensión seleccionada y completar la evaluación correspondiente de manera adecuada. Nuestro código y conjunto de datos están ahora disponibles públicamente para facilitar estudios de evaluación reproducibles y comparaciones entre modelos dentro de la comunidad de investigación en T2I.
English
Text-to-image (T2I) models have garnered significant attention for generating
high-quality images aligned with text prompts. However, rapid T2I model
advancements reveal limitations in early benchmarks, lacking comprehensive
evaluations, for example, the evaluation on reasoning, text rendering and
style. Notably, recent state-of-the-art models, with their rich knowledge
modeling capabilities, show promising results on the image generation problems
requiring strong reasoning ability, yet existing evaluation systems have not
adequately addressed this frontier. To systematically address these gaps, we
introduce OneIG-Bench, a meticulously designed comprehensive benchmark
framework for fine-grained evaluation of T2I models across multiple dimensions,
including prompt-image alignment, text rendering precision, reasoning-generated
content, stylization, and diversity. By structuring the evaluation, this
benchmark enables in-depth analysis of model performance, helping researchers
and practitioners pinpoint strengths and bottlenecks in the full pipeline of
image generation. Specifically, OneIG-Bench enables flexible evaluation by
allowing users to focus on a particular evaluation subset. Instead of
generating images for the entire set of prompts, users can generate images only
for the prompts associated with the selected dimension and complete the
corresponding evaluation accordingly. Our codebase and dataset are now publicly
available to facilitate reproducible evaluation studies and cross-model
comparisons within the T2I research community.