ViStoryBench: Suíte Abrangente de Benchmark para Visualização de Histórias
ViStoryBench: Comprehensive Benchmark Suite for Story Visualization
May 30, 2025
Autores: Cailin Zhuang, Ailin Huang, Wei Cheng, Jingwei Wu, Yaoqi Hu, Jiaqi Liao, Zhewei Huang, Hongyuan Wang, Xinyao Liao, Weiwei Cai, Hengyuan Xu, Xuanyang Zhang, Xianfang Zeng, Gang Yu, Chi Zhang
cs.AI
Resumo
A visualização de histórias, que visa gerar uma sequência de imagens visualmente coerentes alinhadas a uma narrativa e imagens de referência fornecidas, tem apresentado progressos significativos com os recentes avanços em modelos generativos. Para aprimorar ainda mais o desempenho de frameworks de visualização de histórias em cenários do mundo real, introduzimos um benchmark de avaliação abrangente, o ViStoryBench. Coletamos um conjunto de dados diversificado que abrange vários tipos de histórias e estilos artísticos, garantindo que os modelos sejam avaliados em múltiplas dimensões, como diferentes enredos (por exemplo, comédia, terror) e estéticas visuais (por exemplo, anime, renderizações 3D). O ViStoryBench foi cuidadosamente elaborado para equilibrar estruturas narrativas e elementos visuais, apresentando histórias com protagonistas únicos e múltiplos para testar a capacidade dos modelos de manter a consistência dos personagens. Além disso, inclui enredos complexos e construção de mundos intricados para desafiar os modelos na geração de visuais precisos. Para garantir comparações abrangentes, nosso benchmark incorpora uma ampla gama de métricas de avaliação que abordam aspectos críticos. Essa estrutura estruturada e multifacetada permite que os pesquisadores identifiquem de forma completa tanto os pontos fortes quanto as fraquezas de diferentes modelos, promovendo melhorias direcionadas.
English
Story visualization, which aims to generate a sequence of visually coherent
images aligning with a given narrative and reference images, has seen
significant progress with recent advancements in generative models. To further
enhance the performance of story visualization frameworks in real-world
scenarios, we introduce a comprehensive evaluation benchmark, ViStoryBench. We
collect a diverse dataset encompassing various story types and artistic styles,
ensuring models are evaluated across multiple dimensions such as different
plots (e.g., comedy, horror) and visual aesthetics (e.g., anime, 3D
renderings). ViStoryBench is carefully curated to balance narrative structures
and visual elements, featuring stories with single and multiple protagonists to
test models' ability to maintain character consistency. Additionally, it
includes complex plots and intricate world-building to challenge models in
generating accurate visuals. To ensure comprehensive comparisons, our benchmark
incorporates a wide range of evaluation metrics assessing critical aspects.
This structured and multifaceted framework enables researchers to thoroughly
identify both the strengths and weaknesses of different models, fostering
targeted improvements.