AnimeShooter: Мультикадровый анимационный набор данных для генерации видео с использованием референсов
AnimeShooter: A Multi-Shot Animation Dataset for Reference-Guided Video Generation
June 3, 2025
Авторы: Lu Qiu, Yizhuo Li, Yuying Ge, Yixiao Ge, Ying Shan, Xihui Liu
cs.AI
Аннотация
Последние достижения в области генерации контента с помощью ИИ (AIGC) значительно ускорили процесс создания анимации. Для создания увлекательных анимаций важно генерировать согласованные многокадровые видеоклипы с повествовательными сценариями и референсами персонажей. Однако существующие публичные наборы данных в основном сосредоточены на реальных сценариях с глобальными описаниями и не содержат референсных изображений для обеспечения согласованности персонажей. Чтобы устранить этот пробел, мы представляем AnimeShooter — набор данных для многокадровой анимации с референсным руководством. AnimeShooter включает в себя иерархические аннотации и обеспечивает высокую визуальную согласованность между кадрами благодаря автоматизированному процессу. Аннотации на уровне сюжета предоставляют обзор повествования, включая сюжетную линию, ключевые сцены и профили главных персонажей с референсными изображениями, в то время как аннотации на уровне кадров разбивают сюжет на последовательные кадры, каждый из которых аннотирован сценой, персонажами, а также повествовательными и описательными визуальными подписями. Дополнительно, специальное подмножество AnimeShooter-audio предлагает синхронизированные аудиодорожки для каждого кадра, а также аудиоописания и источники звука. Чтобы продемонстрировать эффективность AnimeShooter и установить базовый уровень для задачи генерации многокадрового видео с референсным руководством, мы представляем AnimeShooterGen, который использует мультимодальные большие языковые модели (MLLM) и модели диффузии видео. Референсное изображение и ранее сгенерированные кадры сначала обрабатываются MLLM для создания представлений, учитывающих как референс, так и контекст, которые затем используются в качестве условия для модели диффузии для декодирования следующего кадра. Экспериментальные результаты показывают, что модель, обученная на AnimeShooter, достигает превосходной визуальной согласованности между кадрами и строгого следования референсным визуальным указаниям, что подчеркивает ценность нашего набора данных для генерации согласованных анимационных видео.
English
Recent advances in AI-generated content (AIGC) have significantly accelerated
animation production. To produce engaging animations, it is essential to
generate coherent multi-shot video clips with narrative scripts and character
references. However, existing public datasets primarily focus on real-world
scenarios with global descriptions, and lack reference images for consistent
character guidance. To bridge this gap, we present AnimeShooter, a
reference-guided multi-shot animation dataset. AnimeShooter features
comprehensive hierarchical annotations and strong visual consistency across
shots through an automated pipeline. Story-level annotations provide an
overview of the narrative, including the storyline, key scenes, and main
character profiles with reference images, while shot-level annotations
decompose the story into consecutive shots, each annotated with scene,
characters, and both narrative and descriptive visual captions. Additionally, a
dedicated subset, AnimeShooter-audio, offers synchronized audio tracks for each
shot, along with audio descriptions and sound sources. To demonstrate the
effectiveness of AnimeShooter and establish a baseline for the reference-guided
multi-shot video generation task, we introduce AnimeShooterGen, which leverages
Multimodal Large Language Models (MLLMs) and video diffusion models. The
reference image and previously generated shots are first processed by MLLM to
produce representations aware of both reference and context, which are then
used as the condition for the diffusion model to decode the subsequent shot.
Experimental results show that the model trained on AnimeShooter achieves
superior cross-shot visual consistency and adherence to reference visual
guidance, which highlight the value of our dataset for coherent animated video
generation.