MMMG: Eine umfassende und zuverlässige Evaluationssuite für Multitask-Multimodale Generierung
MMMG: a Comprehensive and Reliable Evaluation Suite for Multitask Multimodal Generation
May 23, 2025
papers.authors: Jihan Yao, Yushi Hu, Yujie Yi, Bin Han, Shangbin Feng, Guang Yang, Bingbing Wen, Ranjay Krishna, Lucy Lu Wang, Yulia Tsvetkov, Noah A. Smith, Banghua Zhu
cs.AI
papers.abstract
Die automatische Bewertung multimodaler Generierung stellt eine erhebliche Herausforderung dar, da automatisierte Metriken oft Schwierigkeiten haben, zuverlässig mit der menschlichen Bewertung übereinzustimmen, insbesondere bei komplexen Aufgaben, die mehrere Modalitäten umfassen. Um dies zu adressieren, präsentieren wir MMMG, einen umfassenden und menschlich ausgerichteten Benchmark für multimodale Generierung über 4 Modalitätskombinationen (Bild, Audio, verschachtelter Text und Bild, verschachtelter Text und Audio), mit einem Fokus auf Aufgaben, die erhebliche Herausforderungen für Generierungsmodelle darstellen, während dennoch eine zuverlässige automatische Bewertung durch eine Kombination von Modellen und Programmen ermöglicht wird. MMMG umfasst 49 Aufgaben (darunter 29 neu entwickelte), jede mit einem sorgfältig gestalteten Bewertungspipeline, und 937 Anweisungen, um systematisch das Denkvermögen, die Steuerbarkeit und andere Schlüsselfähigkeiten multimodaler Generierungsmodelle zu bewerten. Umfangreiche Validierungen zeigen, dass MMMG stark mit der menschlichen Bewertung übereinstimmt und eine durchschnittliche Übereinstimmung von 94,3 % erreicht. Benchmarking-Ergebnisse für 24 multimodale Generierungsmodelle offenbaren, dass das state-of-the-art Modell, GPT Image, zwar eine Genauigkeit von 78,3 % für die Bildgenerierung erzielt, jedoch bei multimodalem Denken und verschachtelter Generierung zurückbleibt. Darüber hinaus deuten die Ergebnisse auf erheblichen Verbesserungsbedarf in der Audiogenerierung hin, was eine wichtige Richtung für zukünftige Forschung aufzeigt.
English
Automatically evaluating multimodal generation presents a significant
challenge, as automated metrics often struggle to align reliably with human
evaluation, especially for complex tasks that involve multiple modalities. To
address this, we present MMMG, a comprehensive and human-aligned benchmark for
multimodal generation across 4 modality combinations (image, audio, interleaved
text and image, interleaved text and audio), with a focus on tasks that present
significant challenges for generation models, while still enabling reliable
automatic evaluation through a combination of models and programs. MMMG
encompasses 49 tasks (including 29 newly developed ones), each with a carefully
designed evaluation pipeline, and 937 instructions to systematically assess
reasoning, controllability, and other key capabilities of multimodal generation
models. Extensive validation demonstrates that MMMG is highly aligned with
human evaluation, achieving an average agreement of 94.3%. Benchmarking results
on 24 multimodal generation models reveal that even though the state-of-the-art
model, GPT Image, achieves 78.3% accuracy for image generation, it falls short
on multimodal reasoning and interleaved generation. Furthermore, results
suggest considerable headroom for improvement in audio generation, highlighting
an important direction for future research.