AnimeShooter: Um Conjunto de Dados de Animação Multi-Shot para Geração de Vídeo Guiada por Referência
AnimeShooter: A Multi-Shot Animation Dataset for Reference-Guided Video Generation
June 3, 2025
Autores: Lu Qiu, Yizhuo Li, Yuying Ge, Yixiao Ge, Ying Shan, Xihui Liu
cs.AI
Resumo
Os avanços recentes em conteúdo gerado por IA (AIGC) aceleraram significativamente a produção de animações. Para criar animações envolventes, é essencial gerar clipes de vídeo multi-cena coerentes com roteiros narrativos e referências de personagens. No entanto, os conjuntos de dados públicos existentes focam principalmente em cenários do mundo real com descrições globais e carecem de imagens de referência para orientação consistente dos personagens. Para preencher essa lacuna, apresentamos o AnimeShooter, um conjunto de dados de animação multi-cena guiado por referências. O AnimeShooter apresenta anotações hierárquicas abrangentes e forte consistência visual entre as cenas por meio de um pipeline automatizado. As anotações em nível de história fornecem uma visão geral da narrativa, incluindo o enredo, cenas-chave e perfis dos personagens principais com imagens de referência, enquanto as anotações em nível de cena decompõem a história em cenas consecutivas, cada uma anotada com cena, personagens e legendas visuais narrativas e descritivas. Além disso, um subconjunto dedicado, o AnimeShooter-audio, oferece trilhas de áudio sincronizadas para cada cena, juntamente com descrições de áudio e fontes sonoras. Para demonstrar a eficácia do AnimeShooter e estabelecer uma linha de base para a tarefa de geração de vídeo multi-cena guiado por referências, introduzimos o AnimeShooterGen, que aproveita Modelos de Linguagem Multimodais de Grande Escala (MLLMs) e modelos de difusão de vídeo. A imagem de referência e as cenas previamente geradas são primeiro processadas pelo MLLM para produzir representações cientes tanto da referência quanto do contexto, que são então usadas como condição para o modelo de difusão decodificar a cena subsequente. Os resultados experimentais mostram que o modelo treinado no AnimeShooter alcança consistência visual superior entre as cenas e aderência à orientação visual de referência, destacando o valor do nosso conjunto de dados para a geração de vídeos animados coerentes.
English
Recent advances in AI-generated content (AIGC) have significantly accelerated
animation production. To produce engaging animations, it is essential to
generate coherent multi-shot video clips with narrative scripts and character
references. However, existing public datasets primarily focus on real-world
scenarios with global descriptions, and lack reference images for consistent
character guidance. To bridge this gap, we present AnimeShooter, a
reference-guided multi-shot animation dataset. AnimeShooter features
comprehensive hierarchical annotations and strong visual consistency across
shots through an automated pipeline. Story-level annotations provide an
overview of the narrative, including the storyline, key scenes, and main
character profiles with reference images, while shot-level annotations
decompose the story into consecutive shots, each annotated with scene,
characters, and both narrative and descriptive visual captions. Additionally, a
dedicated subset, AnimeShooter-audio, offers synchronized audio tracks for each
shot, along with audio descriptions and sound sources. To demonstrate the
effectiveness of AnimeShooter and establish a baseline for the reference-guided
multi-shot video generation task, we introduce AnimeShooterGen, which leverages
Multimodal Large Language Models (MLLMs) and video diffusion models. The
reference image and previously generated shots are first processed by MLLM to
produce representations aware of both reference and context, which are then
used as the condition for the diffusion model to decode the subsequent shot.
Experimental results show that the model trained on AnimeShooter achieves
superior cross-shot visual consistency and adherence to reference visual
guidance, which highlight the value of our dataset for coherent animated video
generation.