IMAGINE-E: Evaluación de Inteligencia en la Generación de Imágenes de Modelos de Texto a Imagen de Última Generación
IMAGINE-E: Image Generation Intelligence Evaluation of State-of-the-art Text-to-Image Models
January 23, 2025
Autores: Jiayi Lei, Renrui Zhang, Xiangfei Hu, Weifeng Lin, Zhen Li, Wenjian Sun, Ruoyi Du, Le Zhuo, Zhongyu Li, Xinyue Li, Shitian Zhao, Ziyu Guo, Yiting Lu, Peng Gao, Hongsheng Li
cs.AI
Resumen
Con el rápido desarrollo de los modelos de difusión, los modelos de texto a imagen (T2I) han logrado avances significativos, mostrando impresionantes habilidades en el seguimiento de instrucciones y generación de imágenes. Modelos recientemente lanzados como FLUX.1 e Ideogram2.0, junto con otros como Dall-E3 y Stable Diffusion 3, han demostrado un rendimiento excepcional en diversas tareas complejas, planteando interrogantes sobre si los modelos T2I se están moviendo hacia una aplicabilidad de propósito general. Más allá de la generación de imágenes tradicional, estos modelos exhiben capacidades en una variedad de campos, incluyendo generación controlable, edición de imágenes, video, audio, 3D y generación de movimiento, así como tareas de visión por computadora como segmentación semántica y estimación de profundidad. Sin embargo, los marcos de evaluación actuales son insuficientes para evaluar exhaustivamente el rendimiento de estos modelos en dominios en expansión. Para evaluar a fondo estos modelos, desarrollamos IMAGINE-E y probamos seis modelos destacados: FLUX.1, Ideogram2.0, Midjourney, Dall-E3, Stable Diffusion 3 y Jimeng. Nuestra evaluación se divide en cinco dominios clave: generación de salidas estructuradas, realismo y consistencia física, generación en dominios específicos, generación de escenarios desafiantes y tareas de creación multiestilo. Esta evaluación exhaustiva destaca las fortalezas y limitaciones de cada modelo, especialmente el rendimiento sobresaliente de FLUX.1 e Ideogram2.0 en tareas estructuradas y en dominios específicos, subrayando las aplicaciones en expansión y el potencial de los modelos T2I como herramientas fundamentales de IA. Este estudio proporciona información valiosa sobre el estado actual y la trayectoria futura de los modelos T2I a medida que evolucionan hacia una usabilidad de propósito general. Los scripts de evaluación se publicarán en https://github.com/jylei16/Imagine-e.
English
With the rapid development of diffusion models, text-to-image(T2I) models
have made significant progress, showcasing impressive abilities in prompt
following and image generation. Recently launched models such as FLUX.1 and
Ideogram2.0, along with others like Dall-E3 and Stable Diffusion 3, have
demonstrated exceptional performance across various complex tasks, raising
questions about whether T2I models are moving towards general-purpose
applicability. Beyond traditional image generation, these models exhibit
capabilities across a range of fields, including controllable generation, image
editing, video, audio, 3D, and motion generation, as well as computer vision
tasks like semantic segmentation and depth estimation. However, current
evaluation frameworks are insufficient to comprehensively assess these models'
performance across expanding domains. To thoroughly evaluate these models, we
developed the IMAGINE-E and tested six prominent models: FLUX.1, Ideogram2.0,
Midjourney, Dall-E3, Stable Diffusion 3, and Jimeng. Our evaluation is divided
into five key domains: structured output generation, realism, and physical
consistency, specific domain generation, challenging scenario generation, and
multi-style creation tasks. This comprehensive assessment highlights each
model's strengths and limitations, particularly the outstanding performance of
FLUX.1 and Ideogram2.0 in structured and specific domain tasks, underscoring
the expanding applications and potential of T2I models as foundational AI
tools. This study provides valuable insights into the current state and future
trajectory of T2I models as they evolve towards general-purpose usability.
Evaluation scripts will be released at https://github.com/jylei16/Imagine-e.Summary
AI-Generated Summary