ChatPaper.aiChatPaper

ViStoryBench: Suite di Benchmark Completa per la Visualizzazione di Storie

ViStoryBench: Comprehensive Benchmark Suite for Story Visualization

May 30, 2025
Autori: Cailin Zhuang, Ailin Huang, Wei Cheng, Jingwei Wu, Yaoqi Hu, Jiaqi Liao, Zhewei Huang, Hongyuan Wang, Xinyao Liao, Weiwei Cai, Hengyuan Xu, Xuanyang Zhang, Xianfang Zeng, Gang Yu, Chi Zhang
cs.AI

Abstract

La visualizzazione di storie, che mira a generare una sequenza di immagini visivamente coerenti allineate con una narrazione e immagini di riferimento date, ha registrato progressi significativi grazie ai recenti avanzamenti nei modelli generativi. Per migliorare ulteriormente le prestazioni dei framework di visualizzazione di storie in scenari reali, introduciamo un benchmark di valutazione completo, ViStoryBench. Abbiamo raccolto un dataset diversificato che comprende vari tipi di storie e stili artistici, garantendo che i modelli siano valutati su più dimensioni come trame diverse (ad esempio, commedia, horror) ed estetiche visive (ad esempio, anime, rendering 3D). ViStoryBench è stato curato con attenzione per bilanciare strutture narrative ed elementi visivi, includendo storie con uno o più protagonisti per testare la capacità dei modelli di mantenere la coerenza dei personaggi. Inoltre, include trame complesse e costruzioni di mondi intricati per mettere alla prova i modelli nella generazione di visualizzazioni accurate. Per garantire confronti completi, il nostro benchmark incorpora una vasta gamma di metriche di valutazione che analizzano aspetti critici. Questo framework strutturato e multifattoriale consente ai ricercatori di identificare approfonditamente sia i punti di forza che le debolezze dei diversi modelli, favorendo miglioramenti mirati.
English
Story visualization, which aims to generate a sequence of visually coherent images aligning with a given narrative and reference images, has seen significant progress with recent advancements in generative models. To further enhance the performance of story visualization frameworks in real-world scenarios, we introduce a comprehensive evaluation benchmark, ViStoryBench. We collect a diverse dataset encompassing various story types and artistic styles, ensuring models are evaluated across multiple dimensions such as different plots (e.g., comedy, horror) and visual aesthetics (e.g., anime, 3D renderings). ViStoryBench is carefully curated to balance narrative structures and visual elements, featuring stories with single and multiple protagonists to test models' ability to maintain character consistency. Additionally, it includes complex plots and intricate world-building to challenge models in generating accurate visuals. To ensure comprehensive comparisons, our benchmark incorporates a wide range of evaluation metrics assessing critical aspects. This structured and multifaceted framework enables researchers to thoroughly identify both the strengths and weaknesses of different models, fostering targeted improvements.
PDF312June 2, 2025