AnimeShooter : Un ensemble de données d'animation multi-tirs pour la génération de vidéos guidée par référence
AnimeShooter: A Multi-Shot Animation Dataset for Reference-Guided Video Generation
June 3, 2025
Auteurs: Lu Qiu, Yizhuo Li, Yuying Ge, Yixiao Ge, Ying Shan, Xihui Liu
cs.AI
Résumé
Les récentes avancées dans le domaine du contenu généré par l'intelligence artificielle (AIGC) ont considérablement accéléré la production d'animations. Pour créer des animations captivantes, il est essentiel de générer des séquences vidéo multi-plans cohérentes, accompagnées de scripts narratifs et de références de personnages. Cependant, les ensembles de données publics existants se concentrent principalement sur des scénarios du monde réel avec des descriptions globales, et manquent d'images de référence pour guider de manière cohérente les personnages. Pour combler cette lacune, nous présentons AnimeShooter, un ensemble de données d'animation multi-plans guidé par des références. AnimeShooter propose des annotations hiérarchiques complètes et une forte cohérence visuelle entre les plans grâce à un pipeline automatisé. Les annotations au niveau de l'histoire fournissent une vue d'ensemble du récit, incluant la trame narrative, les scènes clés et les profils des personnages principaux avec des images de référence, tandis que les annotations au niveau des plans décomposent l'histoire en plans consécutifs, chacun annoté avec la scène, les personnages, et des légendes narratives et descriptives visuelles. De plus, un sous-ensemble dédié, AnimeShooter-audio, propose des pistes audio synchronisées pour chaque plan, ainsi que des descriptions audio et des sources sonores. Pour démontrer l'efficacité d'AnimeShooter et établir une référence pour la tâche de génération de vidéos multi-plans guidée par des références, nous introduisons AnimeShooterGen, qui exploite des modèles de langage multimodaux de grande taille (MLLMs) et des modèles de diffusion vidéo. L'image de référence et les plans précédemment générés sont d'abord traités par le MLLM pour produire des représentations tenant compte à la fois de la référence et du contexte, qui sont ensuite utilisées comme condition pour le modèle de diffusion afin de décoder le plan suivant. Les résultats expérimentaux montrent que le modèle entraîné sur AnimeShooter atteint une cohérence visuelle inter-plans supérieure et une adhésion aux directives visuelles de référence, ce qui met en valeur l'utilité de notre ensemble de données pour la génération de vidéos animées cohérentes.
English
Recent advances in AI-generated content (AIGC) have significantly accelerated
animation production. To produce engaging animations, it is essential to
generate coherent multi-shot video clips with narrative scripts and character
references. However, existing public datasets primarily focus on real-world
scenarios with global descriptions, and lack reference images for consistent
character guidance. To bridge this gap, we present AnimeShooter, a
reference-guided multi-shot animation dataset. AnimeShooter features
comprehensive hierarchical annotations and strong visual consistency across
shots through an automated pipeline. Story-level annotations provide an
overview of the narrative, including the storyline, key scenes, and main
character profiles with reference images, while shot-level annotations
decompose the story into consecutive shots, each annotated with scene,
characters, and both narrative and descriptive visual captions. Additionally, a
dedicated subset, AnimeShooter-audio, offers synchronized audio tracks for each
shot, along with audio descriptions and sound sources. To demonstrate the
effectiveness of AnimeShooter and establish a baseline for the reference-guided
multi-shot video generation task, we introduce AnimeShooterGen, which leverages
Multimodal Large Language Models (MLLMs) and video diffusion models. The
reference image and previously generated shots are first processed by MLLM to
produce representations aware of both reference and context, which are then
used as the condition for the diffusion model to decode the subsequent shot.
Experimental results show that the model trained on AnimeShooter achieves
superior cross-shot visual consistency and adherence to reference visual
guidance, which highlight the value of our dataset for coherent animated video
generation.