IMAGINE-E: Valutazione dell'Intelligenza Generativa delle Immagini dei Modelli di Testo-immagine All'avanguardia
IMAGINE-E: Image Generation Intelligence Evaluation of State-of-the-art Text-to-Image Models
January 23, 2025
Autori: Jiayi Lei, Renrui Zhang, Xiangfei Hu, Weifeng Lin, Zhen Li, Wenjian Sun, Ruoyi Du, Le Zhuo, Zhongyu Li, Xinyue Li, Shitian Zhao, Ziyu Guo, Yiting Lu, Peng Gao, Hongsheng Li
cs.AI
Abstract
Con lo sviluppo rapido dei modelli di diffusione, i modelli di testo-immagine (T2I) hanno compiuto progressi significativi, mostrando notevoli capacità nel seguire prompt e generare immagini. Modelli recentemente lanciati come FLUX.1 e Ideogram2.0, insieme ad altri come Dall-E3 e Stable Diffusion 3, hanno dimostrato prestazioni eccezionali in varie complesse attività, sollevando interrogativi su se i modelli T2I stiano procedendo verso un'applicabilità generale. Oltre alla generazione tradizionale di immagini, questi modelli mostrano capacità in una vasta gamma di campi, inclusa la generazione controllabile, la modifica delle immagini, video, audio, 3D e generazione di movimento, nonché compiti di visione artificiale come segmentazione semantica e stima della profondità. Tuttavia, i framework di valutazione attuali sono insufficienti per valutare in modo esaustivo le prestazioni di questi modelli attraverso domini in espansione. Per valutare approfonditamente questi modelli, abbiamo sviluppato IMAGINE-E e testato sei modelli di spicco: FLUX.1, Ideogram2.0, Midjourney, Dall-E3, Stable Diffusion 3 e Jimeng. La nostra valutazione è divisa in cinque domini chiave: generazione di output strutturato, realismo e coerenza fisica, generazione in domini specifici, generazione di scenari impegnativi e compiti di creazione multi-stile. Questa valutazione completa mette in luce i punti di forza e le limitazioni di ciascun modello, in particolare le prestazioni eccezionali di FLUX.1 e Ideogram2.0 nei compiti strutturati e in domini specifici, sottolineando le applicazioni in espansione e il potenziale dei modelli T2I come strumenti AI fondamentali. Questo studio fornisce preziose intuizioni sullo stato attuale e sulla traiettoria futura dei modelli T2I mentre evolvono verso un'utilizzabilità generale. Gli script di valutazione saranno rilasciati su https://github.com/jylei16/Imagine-e.
English
With the rapid development of diffusion models, text-to-image(T2I) models
have made significant progress, showcasing impressive abilities in prompt
following and image generation. Recently launched models such as FLUX.1 and
Ideogram2.0, along with others like Dall-E3 and Stable Diffusion 3, have
demonstrated exceptional performance across various complex tasks, raising
questions about whether T2I models are moving towards general-purpose
applicability. Beyond traditional image generation, these models exhibit
capabilities across a range of fields, including controllable generation, image
editing, video, audio, 3D, and motion generation, as well as computer vision
tasks like semantic segmentation and depth estimation. However, current
evaluation frameworks are insufficient to comprehensively assess these models'
performance across expanding domains. To thoroughly evaluate these models, we
developed the IMAGINE-E and tested six prominent models: FLUX.1, Ideogram2.0,
Midjourney, Dall-E3, Stable Diffusion 3, and Jimeng. Our evaluation is divided
into five key domains: structured output generation, realism, and physical
consistency, specific domain generation, challenging scenario generation, and
multi-style creation tasks. This comprehensive assessment highlights each
model's strengths and limitations, particularly the outstanding performance of
FLUX.1 and Ideogram2.0 in structured and specific domain tasks, underscoring
the expanding applications and potential of T2I models as foundational AI
tools. This study provides valuable insights into the current state and future
trajectory of T2I models as they evolve towards general-purpose usability.
Evaluation scripts will be released at https://github.com/jylei16/Imagine-e.Summary
AI-Generated Summary