ChatPaper.aiChatPaper

GATE OpenING: Un punto de referencia integral para juzgar la generación abierta e intercalada de imágenes y texto.

GATE OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation

November 27, 2024
Autores: Pengfei Zhou, Xiaopeng Peng, Jiajun Song, Chuanhao Li, Zhaopan Xu, Yue Yang, Ziyao Guo, Hao Zhang, Yuqi Lin, Yefei He, Lirui Zhao, Shuo Liu, Tianhua Li, Yuxuan Xie, Xiaojun Chang, Yu Qiao, Wenqi Shao, Kaipeng Zhang
cs.AI

Resumen

Los Modelos de Lenguaje Multimodal a Gran Escala (MLLMs) han avanzado significativamente en tareas de comprensión y generación visual. Sin embargo, la generación de contenido imagen-texto entrelazado sigue siendo un desafío, que requiere habilidades integradas de comprensión y generación multimodal. Aunque el progreso en modelos unificados ofrece nuevas soluciones, los benchmarks existentes son insuficientes para evaluar estos métodos debido a limitaciones en tamaño y diversidad de datos. Para cerrar esta brecha, presentamos GATE OpenING (OpenING), un benchmark integral que consta de 5,400 instancias humanamente anotadas de alta calidad en 56 tareas del mundo real. OpenING abarca diversos escenarios diarios como guías de viaje, diseño y lluvia de ideas, ofreciendo una plataforma sólida para desafiar los métodos de generación entrelazada. Además, presentamos IntJudge, un modelo juez para evaluar métodos de generación multimodal abiertos. Entrenado con un nuevo flujo de datos, nuestro IntJudge logra una tasa de acuerdo del 82.42% con las evaluaciones humanas, superando a los evaluadores basados en GPT en un 11.34%. Experimentos extensos en OpenING revelan que los métodos actuales de generación entrelazada aún tienen un amplio margen de mejora. Se presentan hallazgos clave sobre la generación imagen-texto entrelazada para guiar el desarrollo de modelos de próxima generación. El OpenING está disponible como código abierto en https://opening.github.io.
English
Multimodal Large Language Models (MLLMs) have made significant strides in visual understanding and generation tasks. However, generating interleaved image-text content remains a challenge, which requires integrated multimodal understanding and generation abilities. While the progress in unified models offers new solutions, existing benchmarks are insufficient for evaluating these methods due to data size and diversity limitations. To bridge this gap, we introduce GATE OpenING (OpenING), a comprehensive benchmark comprising 5,400 high-quality human-annotated instances across 56 real-world tasks. OpenING covers diverse daily scenarios such as travel guide, design, and brainstorming, offering a robust platform for challenging interleaved generation methods. In addition, we present IntJudge, a judge model for evaluating open-ended multimodal generation methods. Trained with a novel data pipeline, our IntJudge achieves an agreement rate of 82. 42% with human judgments, outperforming GPT-based evaluators by 11.34%. Extensive experiments on OpenING reveal that current interleaved generation methods still have substantial room for improvement. Key findings on interleaved image-text generation are further presented to guide the development of next-generation models. The OpenING is open-sourced at https://opening.github.io.

Summary

AI-Generated Summary

PDF182December 3, 2024