ChatPaper.aiChatPaper

OUVERTURE DE GATE : Un banc d'essai exhaustif pour évaluer la génération d'images et de texte entrelacée ouverte

GATE OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation

November 27, 2024
Auteurs: Pengfei Zhou, Xiaopeng Peng, Jiajun Song, Chuanhao Li, Zhaopan Xu, Yue Yang, Ziyao Guo, Hao Zhang, Yuqi Lin, Yefei He, Lirui Zhao, Shuo Liu, Tianhua Li, Yuxuan Xie, Xiaojun Chang, Yu Qiao, Wenqi Shao, Kaipeng Zhang
cs.AI

Résumé

Les Modèles de Langage Multimodaux à Grande Échelle (MLLMs) ont réalisé des avancées significatives dans les tâches de compréhension et de génération visuelles. Cependant, la génération de contenu image-texte entrelacé reste un défi, nécessitant des capacités intégrées de compréhension et de génération multimodales. Alors que les progrès des modèles unifiés offrent de nouvelles solutions, les bancs d'essai existants sont insuffisants pour évaluer ces méthodes en raison de limitations de taille et de diversité des données. Pour combler ce fossé, nous présentons GATE OpenING (OpenING), un banc d'essai complet comprenant 5 400 instances annotées par des humains de haute qualité sur 56 tâches du monde réel. OpenING couvre divers scénarios quotidiens tels que le guide de voyage, la conception et le remue-méninges, offrant une plateforme robuste pour des méthodes de génération entrelacées stimulantes. De plus, nous présentons IntJudge, un modèle juge pour évaluer les méthodes de génération multimodales ouvertes. Entraîné avec un nouveau pipeline de données, notre IntJudge atteint un taux d'accord de 82,42% avec les jugements humains, surpassant les évaluateurs basés sur GPT de 11,34%. Des expériences approfondies sur OpenING révèlent que les méthodes actuelles de génération entrelacée ont encore un potentiel d'amélioration substantiel. Les principales conclusions sur la génération image-texte entrelacée sont en outre présentées pour guider le développement des modèles de prochaine génération. L'OpenING est open source sur https://opening.github.io.
English
Multimodal Large Language Models (MLLMs) have made significant strides in visual understanding and generation tasks. However, generating interleaved image-text content remains a challenge, which requires integrated multimodal understanding and generation abilities. While the progress in unified models offers new solutions, existing benchmarks are insufficient for evaluating these methods due to data size and diversity limitations. To bridge this gap, we introduce GATE OpenING (OpenING), a comprehensive benchmark comprising 5,400 high-quality human-annotated instances across 56 real-world tasks. OpenING covers diverse daily scenarios such as travel guide, design, and brainstorming, offering a robust platform for challenging interleaved generation methods. In addition, we present IntJudge, a judge model for evaluating open-ended multimodal generation methods. Trained with a novel data pipeline, our IntJudge achieves an agreement rate of 82. 42% with human judgments, outperforming GPT-based evaluators by 11.34%. Extensive experiments on OpenING reveal that current interleaved generation methods still have substantial room for improvement. Key findings on interleaved image-text generation are further presented to guide the development of next-generation models. The OpenING is open-sourced at https://opening.github.io.

Summary

AI-Generated Summary

PDF182December 3, 2024