MMMG: een Uitgebreide en Betrouwbare Evaluatiesuite voor Multitask Multimodale Generatie

Samenvatting

Het automatisch evalueren van multimodale generatie vormt een aanzienlijke uitdaging, aangezien geautomatiseerde metrieken vaak moeite hebben om betrouwbaar overeen te stemmen met menselijke evaluatie, vooral voor complexe taken die meerdere modaliteiten omvatten. Om dit aan te pakken, presenteren we MMMG, een uitgebreide en op menselijke evaluatie afgestemde benchmark voor multimodale generatie over 4 modaliteitscombinaties (beeld, audio, interleaved tekst en beeld, interleaved tekst en audio), met een focus op taken die aanzienlijke uitdagingen vormen voor generatiemodellen, terwijl toch betrouwbare automatische evaluatie mogelijk wordt gemaakt door een combinatie van modellen en programma's. MMMG omvat 49 taken (waarvan 29 nieuw ontwikkelde), elk met een zorgvuldig ontworpen evaluatiepijplijn, en 937 instructies om systematisch redeneren, beheersbaarheid en andere belangrijke capaciteiten van multimodale generatiemodellen te beoordelen. Uitgebreide validatie toont aan dat MMMG sterk overeenstemt met menselijke evaluatie, met een gemiddelde overeenstemming van 94,3%. Benchmarkresultaten van 24 multimodale generatiemodellen onthullen dat hoewel het state-of-the-art model, GPT Image, een nauwkeurigheid van 78,3% behaalt voor beeldgeneratie, het tekortschiet op het gebied van multimodaal redeneren en interleaved generatie. Bovendien suggereren de resultaten aanzienlijke ruimte voor verbetering in audiogeneratie, wat een belangrijke richting voor toekomstig onderzoek benadrukt.

English

Automatically evaluating multimodal generation presents a significant challenge, as automated metrics often struggle to align reliably with human evaluation, especially for complex tasks that involve multiple modalities. To address this, we present MMMG, a comprehensive and human-aligned benchmark for multimodal generation across 4 modality combinations (image, audio, interleaved text and image, interleaved text and audio), with a focus on tasks that present significant challenges for generation models, while still enabling reliable automatic evaluation through a combination of models and programs. MMMG encompasses 49 tasks (including 29 newly developed ones), each with a carefully designed evaluation pipeline, and 937 instructions to systematically assess reasoning, controllability, and other key capabilities of multimodal generation models. Extensive validation demonstrates that MMMG is highly aligned with human evaluation, achieving an average agreement of 94.3%. Benchmarking results on 24 multimodal generation models reveal that even though the state-of-the-art model, GPT Image, achieves 78.3% accuracy for image generation, it falls short on multimodal reasoning and interleaved generation. Furthermore, results suggest considerable headroom for improvement in audio generation, highlighting an important direction for future research.

MMMG: een Uitgebreide en Betrouwbare Evaluatiesuite voor Multitask Multimodale Generatie

MMMG: a Comprehensive and Reliable Evaluation Suite for Multitask Multimodal Generation

Samenvatting

Support