ChatPaper.aiChatPaper

GATE Öffnung: Ein umfassender Maßstab zur Beurteilung der offenen, ineinander verschlungenen Bild-Text-Generierung

GATE OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation

November 27, 2024
Autoren: Pengfei Zhou, Xiaopeng Peng, Jiajun Song, Chuanhao Li, Zhaopan Xu, Yue Yang, Ziyao Guo, Hao Zhang, Yuqi Lin, Yefei He, Lirui Zhao, Shuo Liu, Tianhua Li, Yuxuan Xie, Xiaojun Chang, Yu Qiao, Wenqi Shao, Kaipeng Zhang
cs.AI

Zusammenfassung

Multimodale Large Language Models (MLLMs) haben bedeutende Fortschritte bei visuellen Verständnis- und Generierungsaufgaben erzielt. Die Generierung von ineinandergreifenden Bild-Text-Inhalten bleibt jedoch eine Herausforderung, die integrierte multimodale Verständnis- und Generierungsfähigkeiten erfordert. Während die Fortschritte bei vereinheitlichten Modellen neue Lösungen bieten, sind bestehende Benchmarks aufgrund von Datenmenge- und Diversitätsbeschränkungen unzureichend für die Bewertung dieser Methoden. Um diese Lücke zu schließen, stellen wir GATE OpenING (OpenING) vor, einen umfassenden Benchmark, der 5.400 hochwertige, menschenannotierte Instanzen über 56 realen Aufgaben umfasst. OpenING deckt verschiedene tägliche Szenarien wie Reiseführer, Design und Brainstorming ab und bietet eine robuste Plattform für anspruchsvolle ineinandergreifende Generierungsmethoden. Darüber hinaus präsentieren wir IntJudge, ein Richtermodell zur Bewertung von offenen multimodalen Generierungsmethoden. Trainiert mit einer neuartigen Datenpipeline, erreicht unser IntJudge eine Übereinstimmungsrate von 82,42% mit menschlichen Beurteilungen und übertrifft GPT-basierte Evaluatoren um 11,34%. Umfangreiche Experimente auf OpenING zeigen, dass aktuelle ineinandergreifende Generierungsmethoden noch erhebliches Verbesserungspotenzial haben. Schlüsselerkenntnisse zur ineinandergreifenden Bild-Text-Generierung werden weiterhin präsentiert, um die Entwicklung von Modellen der nächsten Generation zu leiten. Das OpenING ist unter https://opening.github.io als Open Source verfügbar.
English
Multimodal Large Language Models (MLLMs) have made significant strides in visual understanding and generation tasks. However, generating interleaved image-text content remains a challenge, which requires integrated multimodal understanding and generation abilities. While the progress in unified models offers new solutions, existing benchmarks are insufficient for evaluating these methods due to data size and diversity limitations. To bridge this gap, we introduce GATE OpenING (OpenING), a comprehensive benchmark comprising 5,400 high-quality human-annotated instances across 56 real-world tasks. OpenING covers diverse daily scenarios such as travel guide, design, and brainstorming, offering a robust platform for challenging interleaved generation methods. In addition, we present IntJudge, a judge model for evaluating open-ended multimodal generation methods. Trained with a novel data pipeline, our IntJudge achieves an agreement rate of 82. 42% with human judgments, outperforming GPT-based evaluators by 11.34%. Extensive experiments on OpenING reveal that current interleaved generation methods still have substantial room for improvement. Key findings on interleaved image-text generation are further presented to guide the development of next-generation models. The OpenING is open-sourced at https://opening.github.io.

Summary

AI-Generated Summary

PDF182December 3, 2024