ViStoryBench: 스토리 시각화를 위한 종합 벤치마크 제품군
ViStoryBench: Comprehensive Benchmark Suite for Story Visualization
May 30, 2025
저자: Cailin Zhuang, Ailin Huang, Wei Cheng, Jingwei Wu, Yaoqi Hu, Jiaqi Liao, Zhewei Huang, Hongyuan Wang, Xinyao Liao, Weiwei Cai, Hengyuan Xu, Xuanyang Zhang, Xianfang Zeng, Gang Yu, Chi Zhang
cs.AI
초록
스토리 시각화는 주어진 내러티브와 참조 이미지에 맞춰 시각적으로 일관된 이미지 시퀀스를 생성하는 것을 목표로 하며, 최근 생성 모델의 발전으로 상당한 진전을 이루어 왔다. 실제 시나리오에서 스토리 시각화 프레임워크의 성능을 더욱 향상시키기 위해, 우리는 포괄적인 평가 벤치마크인 ViStoryBench를 소개한다. 우리는 다양한 스토리 유형과 예술적 스타일을 포함한 다양한 데이터셋을 수집하여, 모델이 다양한 플롯(예: 코미디, 공포)과 시각적 미학(예: 애니메이션, 3D 렌더링)과 같은 다차원적 측면에서 평가될 수 있도록 했다. ViStoryBench는 내러티브 구조와 시각적 요소의 균형을 신중하게 고려하여, 단일 및 다중 주인공이 등장하는 스토리를 포함하여 모델의 캐릭터 일관성 유지 능력을 테스트한다. 또한, 복잡한 플롯과 정교한 세계 구축을 포함하여 모델이 정확한 시각적 요소를 생성하는 데 있어 도전을 제공한다. 포괄적인 비교를 위해, 우리의 벤치마크는 중요한 측면을 평가하는 다양한 평가 지표를 통합했다. 이 구조화되고 다면적인 프레임워크는 연구자들이 다양한 모델의 강점과 약점을 철저히 파악하여 목표 지향적인 개선을 촉진할 수 있도록 한다.
English
Story visualization, which aims to generate a sequence of visually coherent
images aligning with a given narrative and reference images, has seen
significant progress with recent advancements in generative models. To further
enhance the performance of story visualization frameworks in real-world
scenarios, we introduce a comprehensive evaluation benchmark, ViStoryBench. We
collect a diverse dataset encompassing various story types and artistic styles,
ensuring models are evaluated across multiple dimensions such as different
plots (e.g., comedy, horror) and visual aesthetics (e.g., anime, 3D
renderings). ViStoryBench is carefully curated to balance narrative structures
and visual elements, featuring stories with single and multiple protagonists to
test models' ability to maintain character consistency. Additionally, it
includes complex plots and intricate world-building to challenge models in
generating accurate visuals. To ensure comprehensive comparisons, our benchmark
incorporates a wide range of evaluation metrics assessing critical aspects.
This structured and multifaceted framework enables researchers to thoroughly
identify both the strengths and weaknesses of different models, fostering
targeted improvements.