AnimeShooter: Un Conjunto de Datos de Animación Multi-Shot para la Generación de Vídeos Guiada por Referencia
AnimeShooter: A Multi-Shot Animation Dataset for Reference-Guided Video Generation
June 3, 2025
Autores: Lu Qiu, Yizhuo Li, Yuying Ge, Yixiao Ge, Ying Shan, Xihui Liu
cs.AI
Resumen
Los recientes avances en contenido generado por IA (AIGC) han acelerado significativamente la producción de animación. Para crear animaciones atractivas, es esencial generar clips de video multi-escena coherentes con guiones narrativos y referencias de personajes. Sin embargo, los conjuntos de datos públicos existentes se centran principalmente en escenarios del mundo real con descripciones globales, y carecen de imágenes de referencia para una guía consistente de personajes. Para cerrar esta brecha, presentamos AnimeShooter, un conjunto de datos de animación multi-escena guiada por referencias. AnimeShooter cuenta con anotaciones jerárquicas completas y una fuerte consistencia visual entre escenas a través de una canalización automatizada. Las anotaciones a nivel de historia proporcionan una visión general de la narrativa, incluyendo la trama, escenas clave y perfiles de los personajes principales con imágenes de referencia, mientras que las anotaciones a nivel de escena descomponen la historia en escenas consecutivas, cada una anotada con escenario, personajes y subtítulos visuales tanto narrativos como descriptivos. Además, un subconjunto dedicado, AnimeShooter-audio, ofrece pistas de audio sincronizadas para cada escena, junto con descripciones de audio y fuentes de sonido. Para demostrar la efectividad de AnimeShooter y establecer una línea base para la tarea de generación de video multi-escena guiada por referencias, presentamos AnimeShooterGen, que aprovecha Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) y modelos de difusión de video. La imagen de referencia y las escenas previamente generadas son procesadas primero por el MLLM para producir representaciones conscientes tanto de la referencia como del contexto, las cuales se utilizan como condición para que el modelo de difusión decodifique la escena siguiente. Los resultados experimentales muestran que el modelo entrenado en AnimeShooter logra una consistencia visual superior entre escenas y una adherencia destacada a la guía visual de referencia, lo que resalta el valor de nuestro conjunto de datos para la generación coherente de videos animados.
English
Recent advances in AI-generated content (AIGC) have significantly accelerated
animation production. To produce engaging animations, it is essential to
generate coherent multi-shot video clips with narrative scripts and character
references. However, existing public datasets primarily focus on real-world
scenarios with global descriptions, and lack reference images for consistent
character guidance. To bridge this gap, we present AnimeShooter, a
reference-guided multi-shot animation dataset. AnimeShooter features
comprehensive hierarchical annotations and strong visual consistency across
shots through an automated pipeline. Story-level annotations provide an
overview of the narrative, including the storyline, key scenes, and main
character profiles with reference images, while shot-level annotations
decompose the story into consecutive shots, each annotated with scene,
characters, and both narrative and descriptive visual captions. Additionally, a
dedicated subset, AnimeShooter-audio, offers synchronized audio tracks for each
shot, along with audio descriptions and sound sources. To demonstrate the
effectiveness of AnimeShooter and establish a baseline for the reference-guided
multi-shot video generation task, we introduce AnimeShooterGen, which leverages
Multimodal Large Language Models (MLLMs) and video diffusion models. The
reference image and previously generated shots are first processed by MLLM to
produce representations aware of both reference and context, which are then
used as the condition for the diffusion model to decode the subsequent shot.
Experimental results show that the model trained on AnimeShooter achieves
superior cross-shot visual consistency and adherence to reference visual
guidance, which highlight the value of our dataset for coherent animated video
generation.