IMAGINE-E: Evaluación de Inteligencia en la Generación de Imágenes de Modelos de Texto a Imagen de Última Generación

Resumen

Con el rápido desarrollo de los modelos de difusión, los modelos de texto a imagen (T2I) han logrado avances significativos, mostrando impresionantes habilidades en el seguimiento de instrucciones y generación de imágenes. Modelos recientemente lanzados como FLUX.1 e Ideogram2.0, junto con otros como Dall-E3 y Stable Diffusion 3, han demostrado un rendimiento excepcional en diversas tareas complejas, planteando interrogantes sobre si los modelos T2I se están moviendo hacia una aplicabilidad de propósito general. Más allá de la generación de imágenes tradicional, estos modelos exhiben capacidades en una variedad de campos, incluyendo generación controlable, edición de imágenes, video, audio, 3D y generación de movimiento, así como tareas de visión por computadora como segmentación semántica y estimación de profundidad. Sin embargo, los marcos de evaluación actuales son insuficientes para evaluar exhaustivamente el rendimiento de estos modelos en dominios en expansión. Para evaluar a fondo estos modelos, desarrollamos IMAGINE-E y probamos seis modelos destacados: FLUX.1, Ideogram2.0, Midjourney, Dall-E3, Stable Diffusion 3 y Jimeng. Nuestra evaluación se divide en cinco dominios clave: generación de salidas estructuradas, realismo y consistencia física, generación en dominios específicos, generación de escenarios desafiantes y tareas de creación multiestilo. Esta evaluación exhaustiva destaca las fortalezas y limitaciones de cada modelo, especialmente el rendimiento sobresaliente de FLUX.1 e Ideogram2.0 en tareas estructuradas y en dominios específicos, subrayando las aplicaciones en expansión y el potencial de los modelos T2I como herramientas fundamentales de IA. Este estudio proporciona información valiosa sobre el estado actual y la trayectoria futura de los modelos T2I a medida que evolucionan hacia una usabilidad de propósito general. Los scripts de evaluación se publicarán en https://github.com/jylei16/Imagine-e.

English

With the rapid development of diffusion models, text-to-image(T2I) models have made significant progress, showcasing impressive abilities in prompt following and image generation. Recently launched models such as FLUX.1 and Ideogram2.0, along with others like Dall-E3 and Stable Diffusion 3, have demonstrated exceptional performance across various complex tasks, raising questions about whether T2I models are moving towards general-purpose applicability. Beyond traditional image generation, these models exhibit capabilities across a range of fields, including controllable generation, image editing, video, audio, 3D, and motion generation, as well as computer vision tasks like semantic segmentation and depth estimation. However, current evaluation frameworks are insufficient to comprehensively assess these models' performance across expanding domains. To thoroughly evaluate these models, we developed the IMAGINE-E and tested six prominent models: FLUX.1, Ideogram2.0, Midjourney, Dall-E3, Stable Diffusion 3, and Jimeng. Our evaluation is divided into five key domains: structured output generation, realism, and physical consistency, specific domain generation, challenging scenario generation, and multi-style creation tasks. This comprehensive assessment highlights each model's strengths and limitations, particularly the outstanding performance of FLUX.1 and Ideogram2.0 in structured and specific domain tasks, underscoring the expanding applications and potential of T2I models as foundational AI tools. This study provides valuable insights into the current state and future trajectory of T2I models as they evolve towards general-purpose usability. Evaluation scripts will be released at https://github.com/jylei16/Imagine-e.