ChatPaper.aiChatPaper

GATE OpenING: Een uitgebreide benchmark voor het beoordelen van open-ended interleaved beeld-tekst generatie.

GATE OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation

November 27, 2024
Auteurs: Pengfei Zhou, Xiaopeng Peng, Jiajun Song, Chuanhao Li, Zhaopan Xu, Yue Yang, Ziyao Guo, Hao Zhang, Yuqi Lin, Yefei He, Lirui Zhao, Shuo Liu, Tianhua Li, Yuxuan Xie, Xiaojun Chang, Yu Qiao, Wenqi Shao, Kaipeng Zhang
cs.AI

Samenvatting

Multimodale Grote Taalmodellen (MGT's) hebben aanzienlijke vooruitgang geboekt in visuele begrips- en generatietaken. Het genereren van geïnterlinieerde beeld-tekst inhoud blijft echter een uitdaging, wat geïntegreerde multimodale begrips- en generatievaardigheden vereist. Terwijl de vooruitgang in verenigde modellen nieuwe oplossingen biedt, zijn bestaande benchmarks onvoldoende om deze methoden te evalueren vanwege beperkingen in gegevensomvang en diversiteit. Om deze kloof te overbruggen, introduceren we GATE OpenING (OpenING), een uitgebreide benchmark bestaande uit 5.400 hoogwaardige mens-geannoteerde voorbeelden over 56 real-world taken. OpenING bestrijkt diverse dagelijkse scenario's zoals reisgids, ontwerp en brainstormen, en biedt een robuust platform voor uitdagende geïnterlinieerde generatiemethoden. Daarnaast presenteren we IntJudge, een beoordelingsmodel voor het evalueren van open-eind multimodale generatiemethoden. Getraind met een nieuw gegevenspijplijn, behaalt onze IntJudge een overeenstemmingspercentage van 82.42% met menselijke beoordelingen, wat GPT-gebaseerde evaluatoren met 11.34% overtreft. Uitgebreide experimenten op OpenING tonen aan dat huidige geïnterlinieerde generatiemethoden nog aanzienlijke ruimte hebben voor verbetering. Belangrijke bevindingen over geïnterlinieerde beeld-tekst generatie worden verder gepresenteerd om de ontwikkeling van modellen van de volgende generatie te sturen. De OpenING is open-source beschikbaar op https://opening.github.io.
English
Multimodal Large Language Models (MLLMs) have made significant strides in visual understanding and generation tasks. However, generating interleaved image-text content remains a challenge, which requires integrated multimodal understanding and generation abilities. While the progress in unified models offers new solutions, existing benchmarks are insufficient for evaluating these methods due to data size and diversity limitations. To bridge this gap, we introduce GATE OpenING (OpenING), a comprehensive benchmark comprising 5,400 high-quality human-annotated instances across 56 real-world tasks. OpenING covers diverse daily scenarios such as travel guide, design, and brainstorming, offering a robust platform for challenging interleaved generation methods. In addition, we present IntJudge, a judge model for evaluating open-ended multimodal generation methods. Trained with a novel data pipeline, our IntJudge achieves an agreement rate of 82. 42% with human judgments, outperforming GPT-based evaluators by 11.34%. Extensive experiments on OpenING reveal that current interleaved generation methods still have substantial room for improvement. Key findings on interleaved image-text generation are further presented to guide the development of next-generation models. The OpenING is open-sourced at https://opening.github.io.
PDF182December 3, 2024