GATEオープニング:オープンエンド間交互画像テキスト生成の包括的ベンチマーク
GATE OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation
November 27, 2024
著者: Pengfei Zhou, Xiaopeng Peng, Jiajun Song, Chuanhao Li, Zhaopan Xu, Yue Yang, Ziyao Guo, Hao Zhang, Yuqi Lin, Yefei He, Lirui Zhao, Shuo Liu, Tianhua Li, Yuxuan Xie, Xiaojun Chang, Yu Qiao, Wenqi Shao, Kaipeng Zhang
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLMs)は、視覚理解および生成タスクにおいて大きな進展を遂げています。しかし、画像とテキストが交互に現れるコンテンツを生成することは依然として課題であり、統合されたマルチモーダル理解と生成能力が必要とされます。統一されたモデルにおける進歩は新たな解決策を提供していますが、既存のベンチマークはデータの規模や多様性の制約によりこれらの手法を評価するには不十分です。このギャップを埋めるために、私たちはGATE OpenING(OpenING)を導入しました。これは、56の実世界タスクにわたる5,400件の高品質な人手による注釈付きインスタンスを含む包括的なベンチマークです。OpenINGは、旅行ガイド、デザイン、ブレインストーミングなど多様な日常シナリオをカバーし、厳しい交互生成手法のための強固なプラットフォームを提供しています。さらに、オープンエンドのマルチモーダル生成手法を評価するための判定モデルであるIntJudgeを紹介しています。新しいデータパイプラインでトレーニングされたIntJudgeは、人間の判断と82.42%の一致率を達成し、GPTベースの評価者を11.34%上回っています。OpenINGにおける包括的な実験から、現在の交互生成手法にはまだ大幅な改善の余地があることが明らかになります。交互の画像テキスト生成に関する主要な知見がさらに提示され、次世代モデルの開発を指針としています。OpenINGはhttps://opening.github.ioでオープンソースとして公開されています。
English
Multimodal Large Language Models (MLLMs) have made significant strides in
visual understanding and generation tasks. However, generating interleaved
image-text content remains a challenge, which requires integrated multimodal
understanding and generation abilities. While the progress in unified models
offers new solutions, existing benchmarks are insufficient for evaluating these
methods due to data size and diversity limitations. To bridge this gap, we
introduce GATE OpenING (OpenING), a comprehensive benchmark comprising 5,400
high-quality human-annotated instances across 56 real-world tasks. OpenING
covers diverse daily scenarios such as travel guide, design, and brainstorming,
offering a robust platform for challenging interleaved generation methods. In
addition, we present IntJudge, a judge model for evaluating open-ended
multimodal generation methods. Trained with a novel data pipeline, our IntJudge
achieves an agreement rate of 82. 42% with human judgments, outperforming
GPT-based evaluators by 11.34%. Extensive experiments on OpenING reveal that
current interleaved generation methods still have substantial room for
improvement. Key findings on interleaved image-text generation are further
presented to guide the development of next-generation models. The OpenING is
open-sourced at https://opening.github.io.Summary
AI-Generated Summary