IMAGINE-E: Avaliação da Inteligência de Geração de Imagens de Modelos de Texto-para-Imagem de Última Geração
IMAGINE-E: Image Generation Intelligence Evaluation of State-of-the-art Text-to-Image Models
January 23, 2025
Autores: Jiayi Lei, Renrui Zhang, Xiangfei Hu, Weifeng Lin, Zhen Li, Wenjian Sun, Ruoyi Du, Le Zhuo, Zhongyu Li, Xinyue Li, Shitian Zhao, Ziyu Guo, Yiting Lu, Peng Gao, Hongsheng Li
cs.AI
Resumo
Com o rápido desenvolvimento de modelos de difusão, os modelos de texto-para-imagem (T2I) avançaram significativamente, demonstrando habilidades impressionantes em seguir instruções e gerar imagens. Modelos recentemente lançados como FLUX.1 e Ideogram2.0, juntamente com outros como Dall-E3 e Stable Diffusion 3, têm apresentado desempenho excepcional em diversas tarefas complexas, levantando questões sobre se os modelos T2I estão caminhando em direção a uma aplicabilidade de propósito geral. Além da geração tradicional de imagens, esses modelos exibem capacidades em uma variedade de campos, incluindo geração controlável, edição de imagens, vídeo, áudio, 3D e geração de movimento, bem como tarefas de visão computacional como segmentação semântica e estimativa de profundidade. No entanto, os frameworks de avaliação atuais são insuficientes para avaliar de forma abrangente o desempenho desses modelos em domínios em expansão. Para avaliar minuciosamente esses modelos, desenvolvemos o IMAGINE-E e testamos seis modelos proeminentes: FLUX.1, Ideogram2.0, Midjourney, Dall-E3, Stable Diffusion 3 e Jimeng. Nossa avaliação é dividida em cinco domínios-chave: geração de saída estruturada, realismo e consistência física, geração em domínio específico, geração de cenários desafiadores e tarefas de criação multiestilo. Esta avaliação abrangente destaca os pontos fortes e limitações de cada modelo, especialmente o desempenho excepcional de FLUX.1 e Ideogram2.0 em tarefas estruturadas e em domínio específico, enfatizando as aplicações em expansão e o potencial dos modelos T2I como ferramentas fundamentais de IA. Este estudo fornece insights valiosos sobre o estado atual e a trajetória futura dos modelos T2I à medida que evoluem em direção à usabilidade de propósito geral. Os scripts de avaliação serão disponibilizados em https://github.com/jylei16/Imagine-e.
English
With the rapid development of diffusion models, text-to-image(T2I) models
have made significant progress, showcasing impressive abilities in prompt
following and image generation. Recently launched models such as FLUX.1 and
Ideogram2.0, along with others like Dall-E3 and Stable Diffusion 3, have
demonstrated exceptional performance across various complex tasks, raising
questions about whether T2I models are moving towards general-purpose
applicability. Beyond traditional image generation, these models exhibit
capabilities across a range of fields, including controllable generation, image
editing, video, audio, 3D, and motion generation, as well as computer vision
tasks like semantic segmentation and depth estimation. However, current
evaluation frameworks are insufficient to comprehensively assess these models'
performance across expanding domains. To thoroughly evaluate these models, we
developed the IMAGINE-E and tested six prominent models: FLUX.1, Ideogram2.0,
Midjourney, Dall-E3, Stable Diffusion 3, and Jimeng. Our evaluation is divided
into five key domains: structured output generation, realism, and physical
consistency, specific domain generation, challenging scenario generation, and
multi-style creation tasks. This comprehensive assessment highlights each
model's strengths and limitations, particularly the outstanding performance of
FLUX.1 and Ideogram2.0 in structured and specific domain tasks, underscoring
the expanding applications and potential of T2I models as foundational AI
tools. This study provides valuable insights into the current state and future
trajectory of T2I models as they evolve towards general-purpose usability.
Evaluation scripts will be released at https://github.com/jylei16/Imagine-e.Summary
AI-Generated Summary