ABERTURA GATE: Um Benchmark Abrangente para Avaliar a Geração Aberta e Interlaçada de Imagens e Texto
GATE OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation
November 27, 2024
Autores: Pengfei Zhou, Xiaopeng Peng, Jiajun Song, Chuanhao Li, Zhaopan Xu, Yue Yang, Ziyao Guo, Hao Zhang, Yuqi Lin, Yefei He, Lirui Zhao, Shuo Liu, Tianhua Li, Yuxuan Xie, Xiaojun Chang, Yu Qiao, Wenqi Shao, Kaipeng Zhang
cs.AI
Resumo
Os Modelos Multimodais de Linguagem de Grande Escala (MLLMs) avançaram significativamente em tarefas de compreensão e geração visual. No entanto, a geração de conteúdo imagem-texto entrelaçado continua sendo um desafio, que requer habilidades integradas de compreensão e geração multimodal. Enquanto o progresso em modelos unificados oferece novas soluções, os benchmarks existentes são insuficientes para avaliar esses métodos devido a limitações de tamanho e diversidade de dados. Para preencher essa lacuna, apresentamos o GATE OpenING (OpenING), um benchmark abrangente composto por 5.400 instâncias de alta qualidade anotadas por humanos em 56 tarefas do mundo real. O OpenING abrange diversos cenários diários, como guia de viagem, design e brainstorming, oferecendo uma plataforma robusta para desafiar métodos desafiadores de geração entrelaçada. Além disso, apresentamos o IntJudge, um modelo de juiz para avaliar métodos de geração multimodal abertos. Treinado com um novo pipeline de dados, nosso IntJudge alcança uma taxa de concordância de 82,42% com julgamentos humanos, superando os avaliadores baseados em GPT em 11,34%. Experimentos extensivos no OpenING revelam que os métodos atuais de geração entrelaçada ainda têm um amplo espaço para melhorias. Resultados-chave sobre geração entrelaçada de imagem-texto são apresentados para orientar o desenvolvimento de modelos de próxima geração. O OpenING é de código aberto em https://opening.github.io.
English
Multimodal Large Language Models (MLLMs) have made significant strides in
visual understanding and generation tasks. However, generating interleaved
image-text content remains a challenge, which requires integrated multimodal
understanding and generation abilities. While the progress in unified models
offers new solutions, existing benchmarks are insufficient for evaluating these
methods due to data size and diversity limitations. To bridge this gap, we
introduce GATE OpenING (OpenING), a comprehensive benchmark comprising 5,400
high-quality human-annotated instances across 56 real-world tasks. OpenING
covers diverse daily scenarios such as travel guide, design, and brainstorming,
offering a robust platform for challenging interleaved generation methods. In
addition, we present IntJudge, a judge model for evaluating open-ended
multimodal generation methods. Trained with a novel data pipeline, our IntJudge
achieves an agreement rate of 82. 42% with human judgments, outperforming
GPT-based evaluators by 11.34%. Extensive experiments on OpenING reveal that
current interleaved generation methods still have substantial room for
improvement. Key findings on interleaved image-text generation are further
presented to guide the development of next-generation models. The OpenING is
open-sourced at https://opening.github.io.Summary
AI-Generated Summary