MMMG: een Uitgebreide en Betrouwbare Evaluatiesuite voor Multitask Multimodale Generatie
MMMG: a Comprehensive and Reliable Evaluation Suite for Multitask Multimodal Generation
May 23, 2025
Auteurs: Jihan Yao, Yushi Hu, Yujie Yi, Bin Han, Shangbin Feng, Guang Yang, Bingbing Wen, Ranjay Krishna, Lucy Lu Wang, Yulia Tsvetkov, Noah A. Smith, Banghua Zhu
cs.AI
Samenvatting
Het automatisch evalueren van multimodale generatie vormt een aanzienlijke uitdaging, aangezien geautomatiseerde metrieken vaak moeite hebben om betrouwbaar overeen te stemmen met menselijke evaluatie, vooral voor complexe taken die meerdere modaliteiten omvatten. Om dit aan te pakken, presenteren we MMMG, een uitgebreide en op menselijke evaluatie afgestemde benchmark voor multimodale generatie over 4 modaliteitscombinaties (beeld, audio, interleaved tekst en beeld, interleaved tekst en audio), met een focus op taken die aanzienlijke uitdagingen vormen voor generatiemodellen, terwijl toch betrouwbare automatische evaluatie mogelijk wordt gemaakt door een combinatie van modellen en programma's. MMMG omvat 49 taken (waarvan 29 nieuw ontwikkelde), elk met een zorgvuldig ontworpen evaluatiepijplijn, en 937 instructies om systematisch redeneren, beheersbaarheid en andere belangrijke capaciteiten van multimodale generatiemodellen te beoordelen. Uitgebreide validatie toont aan dat MMMG sterk overeenstemt met menselijke evaluatie, met een gemiddelde overeenstemming van 94,3%. Benchmarkresultaten van 24 multimodale generatiemodellen onthullen dat hoewel het state-of-the-art model, GPT Image, een nauwkeurigheid van 78,3% behaalt voor beeldgeneratie, het tekortschiet op het gebied van multimodaal redeneren en interleaved generatie. Bovendien suggereren de resultaten aanzienlijke ruimte voor verbetering in audiogeneratie, wat een belangrijke richting voor toekomstig onderzoek benadrukt.
English
Automatically evaluating multimodal generation presents a significant
challenge, as automated metrics often struggle to align reliably with human
evaluation, especially for complex tasks that involve multiple modalities. To
address this, we present MMMG, a comprehensive and human-aligned benchmark for
multimodal generation across 4 modality combinations (image, audio, interleaved
text and image, interleaved text and audio), with a focus on tasks that present
significant challenges for generation models, while still enabling reliable
automatic evaluation through a combination of models and programs. MMMG
encompasses 49 tasks (including 29 newly developed ones), each with a carefully
designed evaluation pipeline, and 937 instructions to systematically assess
reasoning, controllability, and other key capabilities of multimodal generation
models. Extensive validation demonstrates that MMMG is highly aligned with
human evaluation, achieving an average agreement of 94.3%. Benchmarking results
on 24 multimodal generation models reveal that even though the state-of-the-art
model, GPT Image, achieves 78.3% accuracy for image generation, it falls short
on multimodal reasoning and interleaved generation. Furthermore, results
suggest considerable headroom for improvement in audio generation, highlighting
an important direction for future research.