AnimeShooter: Ein Multi-Shot-Animationsdatensatz für referenzgesteuerte Videogenerierung
AnimeShooter: A Multi-Shot Animation Dataset for Reference-Guided Video Generation
June 3, 2025
Autoren: Lu Qiu, Yizhuo Li, Yuying Ge, Yixiao Ge, Ying Shan, Xihui Liu
cs.AI
Zusammenfassung
Jüngste Fortschritte bei KI-generierten Inhalten (AIGC) haben die Animationproduktion erheblich beschleunigt. Um ansprechende Animationen zu erstellen, ist es entscheidend, kohärente Mehrfach-Szenen-Videoclips mit narrativen Skripten und Charakterreferenzen zu generieren. Bisher konzentrieren sich öffentlich verfügbare Datensätze jedoch hauptsächlich auf reale Szenarien mit globalen Beschreibungen und bieten keine Referenzbilder für eine konsistente Charakterführung. Um diese Lücke zu schließen, präsentieren wir AnimeShooter, einen referenzgesteuerten Mehrfach-Szenen-Animation-Datensatz. AnimeShooter zeichnet sich durch umfassende hierarchische Annotationen und eine starke visuelle Konsistenz über Szenen hinweg durch einen automatisierten Prozess aus. Story-Level-Annotationen bieten einen Überblick über die Erzählung, einschließlich der Handlung, Schlüsselszenen und Hauptcharakterprofile mit Referenzbildern, während Shot-Level-Annotationen die Geschichte in aufeinanderfolgende Szenen zerlegen, die jeweils mit Szene, Charakteren sowie narrativen und beschreibenden visuellen Beschriftungen annotiert sind. Zusätzlich bietet ein spezieller Subset, AnimeShooter-audio, synchronisierte Audiospuren für jede Szene sowie Audiobeschreibungen und Soundquellen. Um die Effektivität von AnimeShooter zu demonstrieren und eine Baseline für die referenzgesteuerte Mehrfach-Szenen-Videogenerierung zu etablieren, führen wir AnimeShooterGen ein, das Multimodale Große Sprachmodelle (MLLMs) und Video-Diffusionsmodelle nutzt. Das Referenzbild und zuvor generierte Szenen werden zunächst von MLLM verarbeitet, um repräsentationsfähige Informationen zu erzeugen, die sowohl die Referenz als auch den Kontext berücksichtigen. Diese werden dann als Bedingung für das Diffusionsmodell verwendet, um die nachfolgende Szene zu dekodieren. Experimentelle Ergebnisse zeigen, dass das auf AnimeShooter trainierte Modell eine überlegene visuelle Konsistenz über Szenen hinweg und eine hohe Übereinstimmung mit der visuellen Referenzführung erreicht, was den Wert unseres Datensatzes für die kohärente animierte Videogenerierung unterstreicht.
English
Recent advances in AI-generated content (AIGC) have significantly accelerated
animation production. To produce engaging animations, it is essential to
generate coherent multi-shot video clips with narrative scripts and character
references. However, existing public datasets primarily focus on real-world
scenarios with global descriptions, and lack reference images for consistent
character guidance. To bridge this gap, we present AnimeShooter, a
reference-guided multi-shot animation dataset. AnimeShooter features
comprehensive hierarchical annotations and strong visual consistency across
shots through an automated pipeline. Story-level annotations provide an
overview of the narrative, including the storyline, key scenes, and main
character profiles with reference images, while shot-level annotations
decompose the story into consecutive shots, each annotated with scene,
characters, and both narrative and descriptive visual captions. Additionally, a
dedicated subset, AnimeShooter-audio, offers synchronized audio tracks for each
shot, along with audio descriptions and sound sources. To demonstrate the
effectiveness of AnimeShooter and establish a baseline for the reference-guided
multi-shot video generation task, we introduce AnimeShooterGen, which leverages
Multimodal Large Language Models (MLLMs) and video diffusion models. The
reference image and previously generated shots are first processed by MLLM to
produce representations aware of both reference and context, which are then
used as the condition for the diffusion model to decode the subsequent shot.
Experimental results show that the model trained on AnimeShooter achieves
superior cross-shot visual consistency and adherence to reference visual
guidance, which highlight the value of our dataset for coherent animated video
generation.