IMAGINE-E : Évaluation de l'intelligence de génération d'images des modèles texte-image de pointe
IMAGINE-E: Image Generation Intelligence Evaluation of State-of-the-art Text-to-Image Models
January 23, 2025
Auteurs: Jiayi Lei, Renrui Zhang, Xiangfei Hu, Weifeng Lin, Zhen Li, Wenjian Sun, Ruoyi Du, Le Zhuo, Zhongyu Li, Xinyue Li, Shitian Zhao, Ziyu Guo, Yiting Lu, Peng Gao, Hongsheng Li
cs.AI
Résumé
Avec le développement rapide des modèles de diffusion, les modèles de texte vers image (T2I) ont réalisé des progrès significatifs, démontrant des capacités impressionnantes en matière de suivi de consignes et de génération d'images. Des modèles récemment lancés tels que FLUX.1 et Idéogramme2.0, ainsi que d'autres comme Dall-E3 et Diffusion Stable 3, ont montré des performances exceptionnelles dans diverses tâches complexes, soulevant des questions sur la possibilité que les modèles T2I évoluent vers une applicabilité polyvalente. Au-delà de la génération d'images traditionnelle, ces modèles présentent des capacités dans divers domaines, notamment la génération contrôlable, l'édition d'images, la vidéo, l'audio, la 3D et la génération de mouvements, ainsi que des tâches de vision par ordinateur telles que la segmentation sémantique et l'estimation de profondeur. Cependant, les cadres d'évaluation actuels sont insuffisants pour évaluer de manière exhaustive les performances de ces modèles dans des domaines en expansion. Pour évaluer rigoureusement ces modèles, nous avons développé IMAGINE-E et testé six modèles de premier plan : FLUX.1, Idéogramme2.0, Midjourney, Dall-E3, Diffusion Stable 3 et Jimeng. Notre évaluation est divisée en cinq domaines clés : génération de sortie structurée, réalisme et cohérence physique, génération de domaine spécifique, génération de scénarios complexes et tâches de création multi-style. Cette évaluation complète met en lumière les forces et les limites de chaque modèle, en particulier les performances exceptionnelles de FLUX.1 et Idéogramme2.0 dans les tâches structurées et de domaine spécifique, soulignant les applications en expansion et le potentiel des modèles T2I en tant qu'outils AI fondamentaux. Cette étude offre des perspectives précieuses sur l'état actuel et la trajectoire future des modèles T2I alors qu'ils évoluent vers une utilisabilité polyvalente. Les scripts d'évaluation seront publiés sur https://github.com/jylei16/Imagine-e.
English
With the rapid development of diffusion models, text-to-image(T2I) models
have made significant progress, showcasing impressive abilities in prompt
following and image generation. Recently launched models such as FLUX.1 and
Ideogram2.0, along with others like Dall-E3 and Stable Diffusion 3, have
demonstrated exceptional performance across various complex tasks, raising
questions about whether T2I models are moving towards general-purpose
applicability. Beyond traditional image generation, these models exhibit
capabilities across a range of fields, including controllable generation, image
editing, video, audio, 3D, and motion generation, as well as computer vision
tasks like semantic segmentation and depth estimation. However, current
evaluation frameworks are insufficient to comprehensively assess these models'
performance across expanding domains. To thoroughly evaluate these models, we
developed the IMAGINE-E and tested six prominent models: FLUX.1, Ideogram2.0,
Midjourney, Dall-E3, Stable Diffusion 3, and Jimeng. Our evaluation is divided
into five key domains: structured output generation, realism, and physical
consistency, specific domain generation, challenging scenario generation, and
multi-style creation tasks. This comprehensive assessment highlights each
model's strengths and limitations, particularly the outstanding performance of
FLUX.1 and Ideogram2.0 in structured and specific domain tasks, underscoring
the expanding applications and potential of T2I models as foundational AI
tools. This study provides valuable insights into the current state and future
trajectory of T2I models as they evolve towards general-purpose usability.
Evaluation scripts will be released at https://github.com/jylei16/Imagine-e.Summary
AI-Generated Summary