ViStoryBench: Комплексный набор тестов для визуализации историй
ViStoryBench: Comprehensive Benchmark Suite for Story Visualization
May 30, 2025
Авторы: Cailin Zhuang, Ailin Huang, Wei Cheng, Jingwei Wu, Yaoqi Hu, Jiaqi Liao, Zhewei Huang, Hongyuan Wang, Xinyao Liao, Weiwei Cai, Hengyuan Xu, Xuanyang Zhang, Xianfang Zeng, Gang Yu, Chi Zhang
cs.AI
Аннотация
Визуализация историй, направленная на создание последовательности визуально согласованных изображений, соответствующих заданному повествованию и референсным изображениям, достигла значительного прогресса благодаря последним достижениям в области генеративных моделей. Для дальнейшего повышения производительности фреймворков визуализации историй в реальных сценариях мы представляем комплексный эталонный тест ViStoryBench. Мы собрали разнообразный набор данных, охватывающий различные типы историй и художественные стили, что позволяет оценивать модели по множеству аспектов, таких как различные сюжеты (например, комедия, ужасы) и визуальная эстетика (например, аниме, 3D-рендеринг). ViStoryBench тщательно разработан для баланса между повествовательными структурами и визуальными элементами, включая истории с одним и несколькими главными героями, чтобы проверить способность моделей поддерживать согласованность персонажей. Кроме того, он включает сложные сюжеты и детализированное построение миров, чтобы бросить вызов моделям в генерации точных визуальных элементов. Для обеспечения всестороннего сравнения наш эталонный тест включает широкий спектр метрик оценки, охватывающих ключевые аспекты. Этот структурированный и многогранный фреймворк позволяет исследователям тщательно выявлять как сильные, так и слабые стороны различных моделей, способствуя целенаправленным улучшениям.
English
Story visualization, which aims to generate a sequence of visually coherent
images aligning with a given narrative and reference images, has seen
significant progress with recent advancements in generative models. To further
enhance the performance of story visualization frameworks in real-world
scenarios, we introduce a comprehensive evaluation benchmark, ViStoryBench. We
collect a diverse dataset encompassing various story types and artistic styles,
ensuring models are evaluated across multiple dimensions such as different
plots (e.g., comedy, horror) and visual aesthetics (e.g., anime, 3D
renderings). ViStoryBench is carefully curated to balance narrative structures
and visual elements, featuring stories with single and multiple protagonists to
test models' ability to maintain character consistency. Additionally, it
includes complex plots and intricate world-building to challenge models in
generating accurate visuals. To ensure comprehensive comparisons, our benchmark
incorporates a wide range of evaluation metrics assessing critical aspects.
This structured and multifaceted framework enables researchers to thoroughly
identify both the strengths and weaknesses of different models, fostering
targeted improvements.