ViStoryBench: Suite Integral de Evaluación para la Visualización de Historias

Resumen

La visualización de historias, que tiene como objetivo generar una secuencia de imágenes visualmente coherentes que se alineen con una narrativa dada y con imágenes de referencia, ha experimentado avances significativos gracias a los recientes progresos en modelos generativos. Para mejorar aún más el rendimiento de los marcos de visualización de historias en escenarios del mundo real, presentamos un punto de referencia de evaluación integral, ViStoryBench. Recopilamos un conjunto de datos diverso que abarca varios tipos de historias y estilos artísticos, asegurando que los modelos sean evaluados en múltiples dimensiones, como diferentes tramas (por ejemplo, comedia, terror) y estéticas visuales (por ejemplo, anime, renderizados en 3D). ViStoryBench está cuidadosamente diseñado para equilibrar estructuras narrativas y elementos visuales, incluyendo historias con uno o varios protagonistas para probar la capacidad de los modelos de mantener la consistencia de los personajes. Además, incorpora tramas complejas y construcciones de mundos intrincadas para desafiar a los modelos en la generación de imágenes precisas. Para garantizar comparaciones exhaustivas, nuestro punto de referencia incluye una amplia gama de métricas de evaluación que analizan aspectos críticos. Este marco estructurado y multifacético permite a los investigadores identificar a fondo tanto las fortalezas como las debilidades de diferentes modelos, fomentando mejoras específicas.

English

Story visualization, which aims to generate a sequence of visually coherent images aligning with a given narrative and reference images, has seen significant progress with recent advancements in generative models. To further enhance the performance of story visualization frameworks in real-world scenarios, we introduce a comprehensive evaluation benchmark, ViStoryBench. We collect a diverse dataset encompassing various story types and artistic styles, ensuring models are evaluated across multiple dimensions such as different plots (e.g., comedy, horror) and visual aesthetics (e.g., anime, 3D renderings). ViStoryBench is carefully curated to balance narrative structures and visual elements, featuring stories with single and multiple protagonists to test models' ability to maintain character consistency. Additionally, it includes complex plots and intricate world-building to challenge models in generating accurate visuals. To ensure comprehensive comparisons, our benchmark incorporates a wide range of evaluation metrics assessing critical aspects. This structured and multifaceted framework enables researchers to thoroughly identify both the strengths and weaknesses of different models, fostering targeted improvements.

ViStoryBench: Suite Integral de Evaluación para la Visualización de Historias

ViStoryBench: Comprehensive Benchmark Suite for Story Visualization

Resumen

Support