ViStoryBench: Suite Integral de Evaluación para la Visualización de Historias
ViStoryBench: Comprehensive Benchmark Suite for Story Visualization
May 30, 2025
Autores: Cailin Zhuang, Ailin Huang, Wei Cheng, Jingwei Wu, Yaoqi Hu, Jiaqi Liao, Zhewei Huang, Hongyuan Wang, Xinyao Liao, Weiwei Cai, Hengyuan Xu, Xuanyang Zhang, Xianfang Zeng, Gang Yu, Chi Zhang
cs.AI
Resumen
La visualización de historias, que tiene como objetivo generar una secuencia de imágenes visualmente coherentes que se alineen con una narrativa dada y con imágenes de referencia, ha experimentado avances significativos gracias a los recientes progresos en modelos generativos. Para mejorar aún más el rendimiento de los marcos de visualización de historias en escenarios del mundo real, presentamos un punto de referencia de evaluación integral, ViStoryBench. Recopilamos un conjunto de datos diverso que abarca varios tipos de historias y estilos artísticos, asegurando que los modelos sean evaluados en múltiples dimensiones, como diferentes tramas (por ejemplo, comedia, terror) y estéticas visuales (por ejemplo, anime, renderizados en 3D). ViStoryBench está cuidadosamente diseñado para equilibrar estructuras narrativas y elementos visuales, incluyendo historias con uno o varios protagonistas para probar la capacidad de los modelos de mantener la consistencia de los personajes. Además, incorpora tramas complejas y construcciones de mundos intrincadas para desafiar a los modelos en la generación de imágenes precisas. Para garantizar comparaciones exhaustivas, nuestro punto de referencia incluye una amplia gama de métricas de evaluación que analizan aspectos críticos. Este marco estructurado y multifacético permite a los investigadores identificar a fondo tanto las fortalezas como las debilidades de diferentes modelos, fomentando mejoras específicas.
English
Story visualization, which aims to generate a sequence of visually coherent
images aligning with a given narrative and reference images, has seen
significant progress with recent advancements in generative models. To further
enhance the performance of story visualization frameworks in real-world
scenarios, we introduce a comprehensive evaluation benchmark, ViStoryBench. We
collect a diverse dataset encompassing various story types and artistic styles,
ensuring models are evaluated across multiple dimensions such as different
plots (e.g., comedy, horror) and visual aesthetics (e.g., anime, 3D
renderings). ViStoryBench is carefully curated to balance narrative structures
and visual elements, featuring stories with single and multiple protagonists to
test models' ability to maintain character consistency. Additionally, it
includes complex plots and intricate world-building to challenge models in
generating accurate visuals. To ensure comprehensive comparisons, our benchmark
incorporates a wide range of evaluation metrics assessing critical aspects.
This structured and multifaceted framework enables researchers to thoroughly
identify both the strengths and weaknesses of different models, fostering
targeted improvements.