ChatPaper.aiChatPaper

MMMG: Un Conjunto de Evaluación Integral y Confiable para la Generación Multitarea y Multimodal

MMMG: a Comprehensive and Reliable Evaluation Suite for Multitask Multimodal Generation

May 23, 2025
Autores: Jihan Yao, Yushi Hu, Yujie Yi, Bin Han, Shangbin Feng, Guang Yang, Bingbing Wen, Ranjay Krishna, Lucy Lu Wang, Yulia Tsvetkov, Noah A. Smith, Banghua Zhu
cs.AI

Resumen

La evaluación automática de la generación multimodal presenta un desafío significativo, ya que las métricas automatizadas a menudo tienen dificultades para alinearse de manera confiable con la evaluación humana, especialmente en tareas complejas que involucran múltiples modalidades. Para abordar este problema, presentamos MMMG, un punto de referencia integral y alineado con la evaluación humana para la generación multimodal en 4 combinaciones de modalidades (imagen, audio, texto e imagen intercalados, texto y audio intercalados), con un enfoque en tareas que representan desafíos significativos para los modelos de generación, al mismo tiempo que permiten una evaluación automática confiable mediante una combinación de modelos y programas. MMMG abarca 49 tareas (incluyendo 29 desarrolladas recientemente), cada una con una canalización de evaluación cuidadosamente diseñada, y 937 instrucciones para evaluar sistemáticamente el razonamiento, la controlabilidad y otras capacidades clave de los modelos de generación multimodal. Una validación extensa demuestra que MMMG está altamente alineado con la evaluación humana, logrando un acuerdo promedio del 94.3%. Los resultados de evaluación en 24 modelos de generación multimodal revelan que, aunque el modelo más avanzado, GPT Image, alcanza un 78.3% de precisión en la generación de imágenes, se queda corto en el razonamiento multimodal y la generación intercalada. Además, los resultados sugieren un margen considerable de mejora en la generación de audio, destacando una dirección importante para futuras investigaciones.
English
Automatically evaluating multimodal generation presents a significant challenge, as automated metrics often struggle to align reliably with human evaluation, especially for complex tasks that involve multiple modalities. To address this, we present MMMG, a comprehensive and human-aligned benchmark for multimodal generation across 4 modality combinations (image, audio, interleaved text and image, interleaved text and audio), with a focus on tasks that present significant challenges for generation models, while still enabling reliable automatic evaluation through a combination of models and programs. MMMG encompasses 49 tasks (including 29 newly developed ones), each with a carefully designed evaluation pipeline, and 937 instructions to systematically assess reasoning, controllability, and other key capabilities of multimodal generation models. Extensive validation demonstrates that MMMG is highly aligned with human evaluation, achieving an average agreement of 94.3%. Benchmarking results on 24 multimodal generation models reveal that even though the state-of-the-art model, GPT Image, achieves 78.3% accuracy for image generation, it falls short on multimodal reasoning and interleaved generation. Furthermore, results suggest considerable headroom for improvement in audio generation, highlighting an important direction for future research.

Summary

AI-Generated Summary

PDF82May 28, 2025