GATE ОткрыТИЕ: Комплексный Критерий для Оценки Генерации Изображений и Текста в Открытом Виде
GATE OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation
November 27, 2024
Авторы: Pengfei Zhou, Xiaopeng Peng, Jiajun Song, Chuanhao Li, Zhaopan Xu, Yue Yang, Ziyao Guo, Hao Zhang, Yuqi Lin, Yefei He, Lirui Zhao, Shuo Liu, Tianhua Li, Yuxuan Xie, Xiaojun Chang, Yu Qiao, Wenqi Shao, Kaipeng Zhang
cs.AI
Аннотация
Многомодельные модели с большим языковым объемом (MLLM) сделали значительные шаги в задачах визуального понимания и генерации. Однако генерация переплетенного контента изображений и текста остается вызовом, требующим интегрированного многомодального понимания и генерации. Хотя прогресс в единых моделях предлагает новые решения, существующие бенчмарки недостаточны для оценки этих методов из-за ограничений по размеру и разнообразию данных. Для устранения этого разрыва мы представляем GATE OpenING (OpenING), обширный бенчмарк, включающий 5 400 высококачественных аннотированных человеком примеров по 56 задачам реального мира. OpenING охватывает разнообразные повседневные сценарии, такие как путеводитель, дизайн и мозговой штурм, предлагая надежную платформу для вызова методов генерации с переплетением. Кроме того, мы представляем IntJudge, модель-судью для оценки открытых многомодальных методов генерации. Обученный с помощью новой конвейерной системы данных, наш IntJudge достигает уровня согласия 82,42% с человеческими оценками, превосходя оценщиков на основе GPT на 11,34%. Обширные эксперименты на OpenING показывают, что текущие методы генерации с переплетением все еще имеют значительный потенциал для улучшения. Ключевые результаты по генерации переплетенного изображения и текста дополнительно представлены для направления развития моделей следующего поколения. OpenING доступен в открытом доступе на https://opening.github.io.
English
Multimodal Large Language Models (MLLMs) have made significant strides in
visual understanding and generation tasks. However, generating interleaved
image-text content remains a challenge, which requires integrated multimodal
understanding and generation abilities. While the progress in unified models
offers new solutions, existing benchmarks are insufficient for evaluating these
methods due to data size and diversity limitations. To bridge this gap, we
introduce GATE OpenING (OpenING), a comprehensive benchmark comprising 5,400
high-quality human-annotated instances across 56 real-world tasks. OpenING
covers diverse daily scenarios such as travel guide, design, and brainstorming,
offering a robust platform for challenging interleaved generation methods. In
addition, we present IntJudge, a judge model for evaluating open-ended
multimodal generation methods. Trained with a novel data pipeline, our IntJudge
achieves an agreement rate of 82. 42% with human judgments, outperforming
GPT-based evaluators by 11.34%. Extensive experiments on OpenING reveal that
current interleaved generation methods still have substantial room for
improvement. Key findings on interleaved image-text generation are further
presented to guide the development of next-generation models. The OpenING is
open-sourced at https://opening.github.io.Summary
AI-Generated Summary