ChatPaper.aiChatPaper

MMMG : une suite d'évaluation complète et fiable pour la génération multitâche multimodale

MMMG: a Comprehensive and Reliable Evaluation Suite for Multitask Multimodal Generation

May 23, 2025
Auteurs: Jihan Yao, Yushi Hu, Yujie Yi, Bin Han, Shangbin Feng, Guang Yang, Bingbing Wen, Ranjay Krishna, Lucy Lu Wang, Yulia Tsvetkov, Noah A. Smith, Banghua Zhu
cs.AI

Résumé

L'évaluation automatique de la génération multimodale représente un défi majeur, car les métriques automatisées peinent souvent à s'aligner de manière fiable avec l'évaluation humaine, en particulier pour les tâches complexes impliquant plusieurs modalités. Pour répondre à cela, nous présentons MMMG, un benchmark complet et aligné sur l'humain pour la génération multimodale couvrant 4 combinaisons de modalités (image, audio, texte et image entrelacés, texte et audio entrelacés), en mettant l'accent sur les tâches qui posent des défis significatifs aux modèles de génération, tout en permettant une évaluation automatique fiable grâce à une combinaison de modèles et de programmes. MMMG englobe 49 tâches (dont 29 nouvellement développées), chacune dotée d'un pipeline d'évaluation soigneusement conçu, et 937 instructions pour évaluer systématiquement le raisonnement, la contrôlabilité et d'autres capacités clés des modèles de génération multimodale. Une validation approfondie démontre que MMMG est fortement aligné avec l'évaluation humaine, atteignant un accord moyen de 94,3 %. Les résultats de benchmarking sur 24 modèles de génération multimodale révèlent que même si le modèle de pointe, GPT Image, atteint une précision de 78,3 % pour la génération d'images, il est en revanche moins performant en matière de raisonnement multimodal et de génération entrelacée. Par ailleurs, les résultats suggèrent une marge d'amélioration considérable pour la génération audio, soulignant une direction importante pour les recherches futures.
English
Automatically evaluating multimodal generation presents a significant challenge, as automated metrics often struggle to align reliably with human evaluation, especially for complex tasks that involve multiple modalities. To address this, we present MMMG, a comprehensive and human-aligned benchmark for multimodal generation across 4 modality combinations (image, audio, interleaved text and image, interleaved text and audio), with a focus on tasks that present significant challenges for generation models, while still enabling reliable automatic evaluation through a combination of models and programs. MMMG encompasses 49 tasks (including 29 newly developed ones), each with a carefully designed evaluation pipeline, and 937 instructions to systematically assess reasoning, controllability, and other key capabilities of multimodal generation models. Extensive validation demonstrates that MMMG is highly aligned with human evaluation, achieving an average agreement of 94.3%. Benchmarking results on 24 multimodal generation models reveal that even though the state-of-the-art model, GPT Image, achieves 78.3% accuracy for image generation, it falls short on multimodal reasoning and interleaved generation. Furthermore, results suggest considerable headroom for improvement in audio generation, highlighting an important direction for future research.

Summary

AI-Generated Summary

PDF82May 28, 2025