ChatPaper.aiChatPaper

ViStoryBench : Suite de référence exhaustive pour la visualisation d'histoires

ViStoryBench: Comprehensive Benchmark Suite for Story Visualization

May 30, 2025
Auteurs: Cailin Zhuang, Ailin Huang, Wei Cheng, Jingwei Wu, Yaoqi Hu, Jiaqi Liao, Zhewei Huang, Hongyuan Wang, Xinyao Liao, Weiwei Cai, Hengyuan Xu, Xuanyang Zhang, Xianfang Zeng, Gang Yu, Chi Zhang
cs.AI

Résumé

La visualisation d'histoires, qui vise à générer une séquence d'images visuellement cohérentes alignées avec un récit donné et des images de référence, a connu des progrès significatifs grâce aux récentes avancées dans les modèles génératifs. Pour améliorer davantage les performances des cadres de visualisation d'histoires dans des scénarios réels, nous introduisons un benchmark d'évaluation complet, ViStoryBench. Nous avons collecté un ensemble de données diversifié couvrant différents types d'histoires et styles artistiques, garantissant que les modèles sont évalués sur plusieurs dimensions telles que différents intrigues (par exemple, comédie, horreur) et esthétiques visuelles (par exemple, anime, rendus 3D). ViStoryBench est soigneusement conçu pour équilibrer les structures narratives et les éléments visuels, incluant des histoires avec un ou plusieurs protagonistes pour tester la capacité des modèles à maintenir la cohérence des personnages. De plus, il comprend des intrigues complexes et des constructions de mondes détaillées pour défier les modèles dans la génération d'images précises. Pour assurer des comparaisons exhaustives, notre benchmark intègre une large gamme de métriques d'évaluation couvrant des aspects critiques. Ce cadre structuré et multidimensionnel permet aux chercheurs d'identifier de manière approfondie les forces et les faiblesses des différents modèles, favorisant ainsi des améliorations ciblées.
English
Story visualization, which aims to generate a sequence of visually coherent images aligning with a given narrative and reference images, has seen significant progress with recent advancements in generative models. To further enhance the performance of story visualization frameworks in real-world scenarios, we introduce a comprehensive evaluation benchmark, ViStoryBench. We collect a diverse dataset encompassing various story types and artistic styles, ensuring models are evaluated across multiple dimensions such as different plots (e.g., comedy, horror) and visual aesthetics (e.g., anime, 3D renderings). ViStoryBench is carefully curated to balance narrative structures and visual elements, featuring stories with single and multiple protagonists to test models' ability to maintain character consistency. Additionally, it includes complex plots and intricate world-building to challenge models in generating accurate visuals. To ensure comprehensive comparisons, our benchmark incorporates a wide range of evaluation metrics assessing critical aspects. This structured and multifaceted framework enables researchers to thoroughly identify both the strengths and weaknesses of different models, fostering targeted improvements.
PDF302June 2, 2025