ChatPaper.aiChatPaper

ViStoryBench: Umfassende Benchmark-Suite zur Visualisierung von Geschichten

ViStoryBench: Comprehensive Benchmark Suite for Story Visualization

May 30, 2025
Autoren: Cailin Zhuang, Ailin Huang, Wei Cheng, Jingwei Wu, Yaoqi Hu, Jiaqi Liao, Zhewei Huang, Hongyuan Wang, Xinyao Liao, Weiwei Cai, Hengyuan Xu, Xuanyang Zhang, Xianfang Zeng, Gang Yu, Chi Zhang
cs.AI

Zusammenfassung

Story Visualization, das darauf abzielt, eine Sequenz visuell kohärenter Bilder zu generieren, die mit einer gegebenen Erzählung und Referenzbildern übereinstimmen, hat durch die jüngsten Fortschritte in generativen Modellen erhebliche Fortschritte erzielt. Um die Leistung von Story-Visualisierungs-Frameworks in realen Szenarien weiter zu verbessern, führen wir einen umfassenden Evaluierungsbenchmark, ViStoryBench, ein. Wir sammeln einen vielfältigen Datensatz, der verschiedene Geschichtentypen und künstlerische Stile umfasst, um sicherzustellen, dass Modelle in mehreren Dimensionen bewertet werden, wie beispielsweise unterschiedliche Handlungsstränge (z.B. Komödie, Horror) und visuelle Ästhetik (z.B. Anime, 3D-Renderings). ViStoryBench ist sorgfältig kuratiert, um narrative Strukturen und visuelle Elemente auszubalancieren, und enthält Geschichten mit einzelnen und mehreren Protagonisten, um die Fähigkeit der Modelle zur Aufrechterhaltung der Charakterkonsistenz zu testen. Darüber hinaus umfasst es komplexe Handlungsstränge und detaillierte Weltgestaltung, um die Modelle bei der Generierung präziser visueller Darstellungen herauszufordern. Um umfassende Vergleiche zu ermöglichen, integriert unser Benchmark eine breite Palette von Evaluierungsmetriken, die kritische Aspekte bewerten. Dieses strukturierte und vielschichtige Framework ermöglicht es Forschern, sowohl die Stärken als auch die Schwächen verschiedener Modelle gründlich zu identifizieren und gezielte Verbesserungen zu fördern.
English
Story visualization, which aims to generate a sequence of visually coherent images aligning with a given narrative and reference images, has seen significant progress with recent advancements in generative models. To further enhance the performance of story visualization frameworks in real-world scenarios, we introduce a comprehensive evaluation benchmark, ViStoryBench. We collect a diverse dataset encompassing various story types and artistic styles, ensuring models are evaluated across multiple dimensions such as different plots (e.g., comedy, horror) and visual aesthetics (e.g., anime, 3D renderings). ViStoryBench is carefully curated to balance narrative structures and visual elements, featuring stories with single and multiple protagonists to test models' ability to maintain character consistency. Additionally, it includes complex plots and intricate world-building to challenge models in generating accurate visuals. To ensure comprehensive comparisons, our benchmark incorporates a wide range of evaluation metrics assessing critical aspects. This structured and multifaceted framework enables researchers to thoroughly identify both the strengths and weaknesses of different models, fostering targeted improvements.
PDF302June 2, 2025