ChatPaper.aiChatPaper

AnimeShooter: Een Multi-Shot Animatie Dataset voor Referentie-Gestuurde Videogeneratie

AnimeShooter: A Multi-Shot Animation Dataset for Reference-Guided Video Generation

June 3, 2025
Auteurs: Lu Qiu, Yizhuo Li, Yuying Ge, Yixiao Ge, Ying Shan, Xihui Liu
cs.AI

Samenvatting

Recente ontwikkelingen in AI-gegenereerde content (AIGC) hebben de animatieproductie aanzienlijk versneld. Om boeiende animaties te produceren, is het essentieel om samenhangende multi-shot videoclips te genereren met narratieve scripts en karakterreferenties. Bestaande publieke datasets richten zich echter voornamelijk op real-world scenario's met globale beschrijvingen en missen referentiebeelden voor consistente karakterbegeleiding. Om deze kloof te overbruggen, presenteren we AnimeShooter, een referentiegeleide multi-shot animatiedataset. AnimeShooter biedt uitgebreide hiërarchische annotaties en sterke visuele consistentie tussen shots via een geautomatiseerde pijplijn. Story-level annotaties geven een overzicht van het narratief, inclusief de verhaallijn, sleutelscènes en hoofdkarakterprofielen met referentiebeelden, terwijl shot-level annotaties het verhaal opdelen in opeenvolgende shots, elk geannoteerd met scène, karakters, en zowel narratieve als beschrijvende visuele bijschriften. Daarnaast biedt een toegewezen subset, AnimeShooter-audio, gesynchroniseerde audiotracks voor elk shot, samen met audiobeschrijvingen en geluidsbronnen. Om de effectiviteit van AnimeShooter aan te tonen en een basislijn te stellen voor de referentiegeleide multi-shot videogeneratietaak, introduceren we AnimeShooterGen, dat gebruikmaakt van Multimodale Large Language Models (MLLMs) en videodiffusiemodellen. Het referentiebeeld en eerder gegenereerde shots worden eerst door MLLM verwerkt om representaties te produceren die zowel de referentie als de context in acht nemen, die vervolgens worden gebruikt als voorwaarde voor het diffusiemodel om het volgende shot te decoderen. Experimentele resultaten tonen aan dat het model getraind op AnimeShooter superieure cross-shot visuele consistentie en naleving van referentievisuele begeleiding bereikt, wat de waarde van onze dataset voor coherente geanimeerde videogeneratie benadrukt.
English
Recent advances in AI-generated content (AIGC) have significantly accelerated animation production. To produce engaging animations, it is essential to generate coherent multi-shot video clips with narrative scripts and character references. However, existing public datasets primarily focus on real-world scenarios with global descriptions, and lack reference images for consistent character guidance. To bridge this gap, we present AnimeShooter, a reference-guided multi-shot animation dataset. AnimeShooter features comprehensive hierarchical annotations and strong visual consistency across shots through an automated pipeline. Story-level annotations provide an overview of the narrative, including the storyline, key scenes, and main character profiles with reference images, while shot-level annotations decompose the story into consecutive shots, each annotated with scene, characters, and both narrative and descriptive visual captions. Additionally, a dedicated subset, AnimeShooter-audio, offers synchronized audio tracks for each shot, along with audio descriptions and sound sources. To demonstrate the effectiveness of AnimeShooter and establish a baseline for the reference-guided multi-shot video generation task, we introduce AnimeShooterGen, which leverages Multimodal Large Language Models (MLLMs) and video diffusion models. The reference image and previously generated shots are first processed by MLLM to produce representations aware of both reference and context, which are then used as the condition for the diffusion model to decode the subsequent shot. Experimental results show that the model trained on AnimeShooter achieves superior cross-shot visual consistency and adherence to reference visual guidance, which highlight the value of our dataset for coherent animated video generation.
PDF222June 4, 2025