MMMG: Комплексный и надежный набор для оценки многозадачной мультимодальной генерации
MMMG: a Comprehensive and Reliable Evaluation Suite for Multitask Multimodal Generation
May 23, 2025
Авторы: Jihan Yao, Yushi Hu, Yujie Yi, Bin Han, Shangbin Feng, Guang Yang, Bingbing Wen, Ranjay Krishna, Lucy Lu Wang, Yulia Tsvetkov, Noah A. Smith, Banghua Zhu
cs.AI
Аннотация
Автоматическая оценка мультимодальной генерации представляет собой значительную проблему, поскольку автоматизированные метрики часто не могут надежно согласовываться с человеческой оценкой, особенно для сложных задач, включающих несколько модальностей. Для решения этой проблемы мы представляем MMMG — всеобъемлющий и согласованный с человеческой оценкой бенчмарк для мультимодальной генерации, охватывающий 4 комбинации модальностей (изображение, аудио, чередующийся текст и изображение, чередующийся текст и аудио), с акцентом на задачи, которые представляют значительные трудности для моделей генерации, при этом обеспечивая надежную автоматическую оценку с помощью комбинации моделей и программ. MMMG включает 49 задач (в том числе 29 новых), каждая из которых имеет тщательно разработанный конвейер оценки, и 937 инструкций для систематической проверки способностей мультимодальных моделей генерации к рассуждению, управляемости и другим ключевым аспектам. Обширная валидация демонстрирует, что MMMG высоко согласован с человеческой оценкой, достигая среднего уровня согласия 94,3%. Результаты тестирования 24 моделей мультимодальной генерации показывают, что даже самая современная модель, GPT Image, достигает точности 78,3% в генерации изображений, но отстает в мультимодальном рассуждении и чередующейся генерации. Кроме того, результаты указывают на значительный потенциал для улучшения в области генерации аудио, что подчеркивает важное направление для будущих исследований.
English
Automatically evaluating multimodal generation presents a significant
challenge, as automated metrics often struggle to align reliably with human
evaluation, especially for complex tasks that involve multiple modalities. To
address this, we present MMMG, a comprehensive and human-aligned benchmark for
multimodal generation across 4 modality combinations (image, audio, interleaved
text and image, interleaved text and audio), with a focus on tasks that present
significant challenges for generation models, while still enabling reliable
automatic evaluation through a combination of models and programs. MMMG
encompasses 49 tasks (including 29 newly developed ones), each with a carefully
designed evaluation pipeline, and 937 instructions to systematically assess
reasoning, controllability, and other key capabilities of multimodal generation
models. Extensive validation demonstrates that MMMG is highly aligned with
human evaluation, achieving an average agreement of 94.3%. Benchmarking results
on 24 multimodal generation models reveal that even though the state-of-the-art
model, GPT Image, achieves 78.3% accuracy for image generation, it falls short
on multimodal reasoning and interleaved generation. Furthermore, results
suggest considerable headroom for improvement in audio generation, highlighting
an important direction for future research.Summary
AI-Generated Summary