MMIG-Bench: К всесторонней и объяснимой оценке моделей генерации мультимодальных изображений
MMIG-Bench: Towards Comprehensive and Explainable Evaluation of Multi-Modal Image Generation Models
May 26, 2025
Авторы: Hang Hua, Ziyun Zeng, Yizhi Song, Yunlong Tang, Liu He, Daniel Aliaga, Wei Xiong, Jiebo Luo
cs.AI
Аннотация
Современные мультимодальные генераторы изображений, такие как GPT-4o, Gemini 2.0 Flash и Gemini 2.5 Pro, демонстрируют высокую способность следовать сложным инструкциям, редактировать изображения и сохранять согласованность концепций. Однако их оценка до сих пор осуществляется с помощью разрозненных инструментов: тестов для генерации изображений по тексту (T2I), которые не учитывают мультимодальные условия, и специализированных тестов для генерации изображений, которые игнорируют композиционную семантику и общие знания. Мы предлагаем MMIG-Bench, всеобъемлющий бенчмарк для мультимодальной генерации изображений, который объединяет эти задачи, предоставляя 4 850 текстовых запросов с богатой аннотацией и 1 750 эталонных изображений с несколькими ракурсами, охватывающих 380 категорий, включая людей, животных, объекты и художественные стили. MMIG-Bench оснащен трехуровневой системой оценки: (1) низкоуровневые метрики для визуальных артефактов и сохранения идентичности объектов; (2) новая метрика Aspect Matching Score (AMS): среднеуровневая метрика на основе визуального вопросно-ответного анализа, обеспечивающая детальное соответствие между запросом и изображением и демонстрирующая сильную корреляцию с человеческими оценками; и (3) высокоуровневые метрики для оценки эстетики и предпочтений человека. С использованием MMIG-Bench мы протестировали 17 современных моделей, включая Gemini 2.5 Pro, FLUX, DreamBooth и IP-Adapter, и проверили наши метрики на основе 32 тысяч человеческих оценок, получив глубокие инсайты в архитектуру и дизайн данных. Мы опубликуем набор данных и код для оценки, чтобы способствовать строгой и унифицированной оценке и ускорить будущие инновации в области мультимодальной генерации изображений.
English
Recent multimodal image generators such as GPT-4o, Gemini 2.0 Flash, and
Gemini 2.5 Pro excel at following complex instructions, editing images and
maintaining concept consistency. However, they are still evaluated by disjoint
toolkits: text-to-image (T2I) benchmarks that lacks multi-modal conditioning,
and customized image generation benchmarks that overlook compositional
semantics and common knowledge. We propose MMIG-Bench, a comprehensive
Multi-Modal Image Generation Benchmark that unifies these tasks by pairing
4,850 richly annotated text prompts with 1,750 multi-view reference images
across 380 subjects, spanning humans, animals, objects, and artistic styles.
MMIG-Bench is equipped with a three-level evaluation framework: (1) low-level
metrics for visual artifacts and identity preservation of objects; (2) novel
Aspect Matching Score (AMS): a VQA-based mid-level metric that delivers
fine-grained prompt-image alignment and shows strong correlation with human
judgments; and (3) high-level metrics for aesthetics and human preference.
Using MMIG-Bench, we benchmark 17 state-of-the-art models, including Gemini 2.5
Pro, FLUX, DreamBooth, and IP-Adapter, and validate our metrics with 32k human
ratings, yielding in-depth insights into architecture and data design. We will
release the dataset and evaluation code to foster rigorous, unified evaluation
and accelerate future innovations in multi-modal image generation.Summary
AI-Generated Summary