ViStoryBench: Uitgebreide Benchmark Suite voor Storyvisualisatie
ViStoryBench: Comprehensive Benchmark Suite for Story Visualization
May 30, 2025
Auteurs: Cailin Zhuang, Ailin Huang, Wei Cheng, Jingwei Wu, Yaoqi Hu, Jiaqi Liao, Zhewei Huang, Hongyuan Wang, Xinyao Liao, Weiwei Cai, Hengyuan Xu, Xuanyang Zhang, Xianfang Zeng, Gang Yu, Chi Zhang
cs.AI
Samenvatting
Story visualization, dat als doel heeft een reeks visueel samenhangende afbeeldingen te genereren die aansluiten bij een gegeven verhaal en referentieafbeeldingen, heeft aanzienlijke vooruitgang geboekt dankzij recente ontwikkelingen in generatieve modellen. Om de prestaties van storyvisualisatie-frameworks in real-world scenario's verder te verbeteren, introduceren we een uitgebreid evaluatiebenchmark, ViStoryBench. We hebben een diverse dataset verzameld die verschillende verhaaltypes en artistieke stijlen omvat, waardoor modellen op meerdere dimensies worden geëvalueerd, zoals verschillende plotlijnen (bijv. komedie, horror) en visuele esthetiek (bijv. anime, 3D-renders). ViStoryBench is zorgvuldig samengesteld om narratieve structuren en visuele elementen in balans te brengen, met verhalen met één of meerdere hoofdpersonen om het vermogen van modellen om karakterconsistentie te behouden te testen. Daarnaast bevat het complexe plotlijnen en uitgebreide wereldbouw om modellen uit te dagen bij het genereren van nauwkeurige visuals. Om uitgebreide vergelijkingen mogelijk te maken, omvat onze benchmark een breed scala aan evaluatiemetrics die kritieke aspecten beoordelen. Dit gestructureerde en veelzijdige framework stelt onderzoekers in staat om grondig zowel de sterke als de zwakke punten van verschillende modellen te identificeren, wat gerichte verbeteringen bevordert.
English
Story visualization, which aims to generate a sequence of visually coherent
images aligning with a given narrative and reference images, has seen
significant progress with recent advancements in generative models. To further
enhance the performance of story visualization frameworks in real-world
scenarios, we introduce a comprehensive evaluation benchmark, ViStoryBench. We
collect a diverse dataset encompassing various story types and artistic styles,
ensuring models are evaluated across multiple dimensions such as different
plots (e.g., comedy, horror) and visual aesthetics (e.g., anime, 3D
renderings). ViStoryBench is carefully curated to balance narrative structures
and visual elements, featuring stories with single and multiple protagonists to
test models' ability to maintain character consistency. Additionally, it
includes complex plots and intricate world-building to challenge models in
generating accurate visuals. To ensure comprehensive comparisons, our benchmark
incorporates a wide range of evaluation metrics assessing critical aspects.
This structured and multifaceted framework enables researchers to thoroughly
identify both the strengths and weaknesses of different models, fostering
targeted improvements.