ChatPaper.aiChatPaper

MMMG: Um Conjunto Abrangente e Confiável de Avaliação para Geração Multitarefa e Multimodal

MMMG: a Comprehensive and Reliable Evaluation Suite for Multitask Multimodal Generation

May 23, 2025
Autores: Jihan Yao, Yushi Hu, Yujie Yi, Bin Han, Shangbin Feng, Guang Yang, Bingbing Wen, Ranjay Krishna, Lucy Lu Wang, Yulia Tsvetkov, Noah A. Smith, Banghua Zhu
cs.AI

Resumo

A avaliação automática da geração multimodal apresenta um desafio significativo, uma vez que as métricas automatizadas frequentemente têm dificuldade em se alinhar de forma confiável com a avaliação humana, especialmente para tarefas complexas que envolvem múltiplas modalidades. Para abordar esse problema, apresentamos o MMMG, um benchmark abrangente e alinhado com a avaliação humana para geração multimodal em 4 combinações de modalidades (imagem, áudio, texto e imagem intercalados, texto e áudio intercalados), com foco em tarefas que apresentam desafios significativos para modelos de geração, ao mesmo tempo em que permitem uma avaliação automática confiável por meio de uma combinação de modelos e programas. O MMMG abrange 49 tarefas (incluindo 29 recém-desenvolvidas), cada uma com um pipeline de avaliação cuidadosamente projetado, e 937 instruções para avaliar sistematicamente o raciocínio, a controlabilidade e outras capacidades-chave dos modelos de geração multimodal. Uma validação extensa demonstra que o MMMG está altamente alinhado com a avaliação humana, alcançando uma concordância média de 94,3%. Os resultados de benchmark em 24 modelos de geração multimodal revelam que, embora o modelo state-of-the-art, GPT Image, alcance 78,3% de precisão na geração de imagens, ele fica aquém no raciocínio multimodal e na geração intercalada. Além disso, os resultados sugerem uma margem considerável para melhoria na geração de áudio, destacando uma direção importante para pesquisas futuras.
English
Automatically evaluating multimodal generation presents a significant challenge, as automated metrics often struggle to align reliably with human evaluation, especially for complex tasks that involve multiple modalities. To address this, we present MMMG, a comprehensive and human-aligned benchmark for multimodal generation across 4 modality combinations (image, audio, interleaved text and image, interleaved text and audio), with a focus on tasks that present significant challenges for generation models, while still enabling reliable automatic evaluation through a combination of models and programs. MMMG encompasses 49 tasks (including 29 newly developed ones), each with a carefully designed evaluation pipeline, and 937 instructions to systematically assess reasoning, controllability, and other key capabilities of multimodal generation models. Extensive validation demonstrates that MMMG is highly aligned with human evaluation, achieving an average agreement of 94.3%. Benchmarking results on 24 multimodal generation models reveal that even though the state-of-the-art model, GPT Image, achieves 78.3% accuracy for image generation, it falls short on multimodal reasoning and interleaved generation. Furthermore, results suggest considerable headroom for improvement in audio generation, highlighting an important direction for future research.
PDF82December 4, 2025