IMAGINE-E: Оценка интеллекта генерации изображений для передовых моделей текст-в-изображение.

Аннотация

С быстрым развитием моделей диффузии модели текст-к-изображению (T2I) значительно продвинулись, продемонстрировав впечатляющие способности в автоматическом следовании и генерации изображений. Недавно выпущенные модели, такие как FLUX.1 и Ideogram2.0, а также другие, например Dall-E3 и Stable Diffusion 3, продемонстрировали исключительную производительность в различных сложных задачах, вызывая вопросы о том, движутся ли модели T2I в сторону общего применения. Помимо традиционной генерации изображений, эти модели проявляют способности в различных областях, включая управляемую генерацию, редактирование изображений, видео, аудио, 3D и генерацию движения, а также задачи компьютерного зрения, такие как семантическая сегментация и оценка глубины. Однако текущие критерии оценки недостаточны для всесторонней оценки производительности этих моделей в расширяющихся областях. Для тщательной оценки этих моделей мы разработали IMAGINE-E и протестировали шесть ведущих моделей: FLUX.1, Ideogram2.0, Midjourney, Dall-E3, Stable Diffusion 3 и Jimeng. Наша оценка разделена на пять ключевых областей: генерация структурированного вывода, реализм и физическая согласованность, генерация в конкретной области, создание сложных сценариев и задачи множественного стиля. Это всестороннее исследование выделяет сильные и слабые стороны каждой модели, особенно выдающуюся производительность FLUX.1 и Ideogram2.0 в структурированных и конкретных областях, подчеркивая расширяющиеся приложения и потенциал моделей T2I как основных инструментов искусственного интеллекта. Это исследование предоставляет ценные идеи о текущем состоянии и будущем траектории моделей T2I по мере их развития в сторону общего использования. Скрипты оценки будут опубликованы на https://github.com/jylei16/Imagine-e.

English

With the rapid development of diffusion models, text-to-image(T2I) models have made significant progress, showcasing impressive abilities in prompt following and image generation. Recently launched models such as FLUX.1 and Ideogram2.0, along with others like Dall-E3 and Stable Diffusion 3, have demonstrated exceptional performance across various complex tasks, raising questions about whether T2I models are moving towards general-purpose applicability. Beyond traditional image generation, these models exhibit capabilities across a range of fields, including controllable generation, image editing, video, audio, 3D, and motion generation, as well as computer vision tasks like semantic segmentation and depth estimation. However, current evaluation frameworks are insufficient to comprehensively assess these models' performance across expanding domains. To thoroughly evaluate these models, we developed the IMAGINE-E and tested six prominent models: FLUX.1, Ideogram2.0, Midjourney, Dall-E3, Stable Diffusion 3, and Jimeng. Our evaluation is divided into five key domains: structured output generation, realism, and physical consistency, specific domain generation, challenging scenario generation, and multi-style creation tasks. This comprehensive assessment highlights each model's strengths and limitations, particularly the outstanding performance of FLUX.1 and Ideogram2.0 in structured and specific domain tasks, underscoring the expanding applications and potential of T2I models as foundational AI tools. This study provides valuable insights into the current state and future trajectory of T2I models as they evolve towards general-purpose usability. Evaluation scripts will be released at https://github.com/jylei16/Imagine-e.

IMAGINE-E: Оценка интеллекта генерации изображений для передовых моделей текст-в-изображение.

IMAGINE-E: Image Generation Intelligence Evaluation of State-of-the-art Text-to-Image Models

Аннотация

Support