MMMG: una Suite di Valutazione Completa e Affidabile per la Generazione Multitask e Multimodale
MMMG: a Comprehensive and Reliable Evaluation Suite for Multitask Multimodal Generation
May 23, 2025
Autori: Jihan Yao, Yushi Hu, Yujie Yi, Bin Han, Shangbin Feng, Guang Yang, Bingbing Wen, Ranjay Krishna, Lucy Lu Wang, Yulia Tsvetkov, Noah A. Smith, Banghua Zhu
cs.AI
Abstract
La valutazione automatica della generazione multimodale rappresenta una sfida significativa, poiché le metriche automatizzate spesso faticano ad allinearsi in modo affidabile con la valutazione umana, specialmente per compiti complessi che coinvolgono più modalità. Per affrontare questo problema, presentiamo MMMG, un benchmark completo e allineato con la valutazione umana per la generazione multimodale attraverso 4 combinazioni di modalità (immagine, audio, testo e immagine intervallati, testo e audio intervallati), con un focus su compiti che presentano sfide significative per i modelli di generazione, pur consentendo una valutazione automatica affidabile attraverso una combinazione di modelli e programmi. MMMG comprende 49 compiti (inclusi 29 di nuova concezione), ciascuno con una pipeline di valutazione accuratamente progettata, e 937 istruzioni per valutare sistematicamente il ragionamento, la controllabilità e altre capacità chiave dei modelli di generazione multimodale. Un'ampia validazione dimostra che MMMG è altamente allineato con la valutazione umana, raggiungendo un accordo medio del 94,3%. I risultati del benchmarking su 24 modelli di generazione multimodale rivelano che, sebbene il modello all'avanguardia, GPT Image, raggiunga un'accuratezza del 78,3% per la generazione di immagini, risulta carente nel ragionamento multimodale e nella generazione intervallata. Inoltre, i risultati suggeriscono un ampio margine di miglioramento nella generazione audio, evidenziando un'importante direzione per la ricerca futura.
English
Automatically evaluating multimodal generation presents a significant
challenge, as automated metrics often struggle to align reliably with human
evaluation, especially for complex tasks that involve multiple modalities. To
address this, we present MMMG, a comprehensive and human-aligned benchmark for
multimodal generation across 4 modality combinations (image, audio, interleaved
text and image, interleaved text and audio), with a focus on tasks that present
significant challenges for generation models, while still enabling reliable
automatic evaluation through a combination of models and programs. MMMG
encompasses 49 tasks (including 29 newly developed ones), each with a carefully
designed evaluation pipeline, and 937 instructions to systematically assess
reasoning, controllability, and other key capabilities of multimodal generation
models. Extensive validation demonstrates that MMMG is highly aligned with
human evaluation, achieving an average agreement of 94.3%. Benchmarking results
on 24 multimodal generation models reveal that even though the state-of-the-art
model, GPT Image, achieves 78.3% accuracy for image generation, it falls short
on multimodal reasoning and interleaved generation. Furthermore, results
suggest considerable headroom for improvement in audio generation, highlighting
an important direction for future research.