ChatPaper.aiChatPaper

AnimeShooter: Un Dataset di Animazione Multi-Shot per la Generazione di Video Guidata da Riferimenti

AnimeShooter: A Multi-Shot Animation Dataset for Reference-Guided Video Generation

June 3, 2025
Autori: Lu Qiu, Yizhuo Li, Yuying Ge, Yixiao Ge, Ying Shan, Xihui Liu
cs.AI

Abstract

I recenti progressi nei contenuti generati dall'intelligenza artificiale (AIGC) hanno accelerato significativamente la produzione di animazioni. Per creare animazioni coinvolgenti, è essenziale generare clip video multi-inquadratura coerenti con script narrativi e riferimenti ai personaggi. Tuttavia, i dataset pubblici esistenti si concentrano principalmente su scenari del mondo reale con descrizioni globali e mancano di immagini di riferimento per una guida coerente dei personaggi. Per colmare questa lacuna, presentiamo AnimeShooter, un dataset di animazione multi-inquadratura guidato da riferimenti. AnimeShooter offre annotazioni gerarchiche complete e una forte coerenza visiva tra le inquadrature attraverso una pipeline automatizzata. Le annotazioni a livello di storia forniscono una panoramica della narrazione, inclusa la trama, le scene chiave e i profili dei personaggi principali con immagini di riferimento, mentre le annotazioni a livello di inquadratura scompongono la storia in inquadrature consecutive, ciascuna annotata con la scena, i personaggi e didascalie visive sia narrative che descrittive. Inoltre, un sottoinsieme dedicato, AnimeShooter-audio, offre tracce audio sincronizzate per ogni inquadratura, insieme a descrizioni audio e fonti sonore. Per dimostrare l'efficacia di AnimeShooter e stabilire una baseline per il compito di generazione video multi-inquadratura guidata da riferimenti, introduciamo AnimeShooterGen, che sfrutta Modelli di Linguaggio Multimodali di Grande Scala (MLLMs) e modelli di diffusione video. L'immagine di riferimento e le inquadrature precedentemente generate vengono prima elaborate da MLLM per produrre rappresentazioni consapevoli sia del riferimento che del contesto, che vengono poi utilizzate come condizione per il modello di diffusione per decodificare l'inquadratura successiva. I risultati sperimentali mostrano che il modello addestrato su AnimeShooter raggiunge una superiore coerenza visiva tra le inquadrature e un'aderenza alla guida visiva di riferimento, evidenziando il valore del nostro dataset per la generazione coerente di video animati.
English
Recent advances in AI-generated content (AIGC) have significantly accelerated animation production. To produce engaging animations, it is essential to generate coherent multi-shot video clips with narrative scripts and character references. However, existing public datasets primarily focus on real-world scenarios with global descriptions, and lack reference images for consistent character guidance. To bridge this gap, we present AnimeShooter, a reference-guided multi-shot animation dataset. AnimeShooter features comprehensive hierarchical annotations and strong visual consistency across shots through an automated pipeline. Story-level annotations provide an overview of the narrative, including the storyline, key scenes, and main character profiles with reference images, while shot-level annotations decompose the story into consecutive shots, each annotated with scene, characters, and both narrative and descriptive visual captions. Additionally, a dedicated subset, AnimeShooter-audio, offers synchronized audio tracks for each shot, along with audio descriptions and sound sources. To demonstrate the effectiveness of AnimeShooter and establish a baseline for the reference-guided multi-shot video generation task, we introduce AnimeShooterGen, which leverages Multimodal Large Language Models (MLLMs) and video diffusion models. The reference image and previously generated shots are first processed by MLLM to produce representations aware of both reference and context, which are then used as the condition for the diffusion model to decode the subsequent shot. Experimental results show that the model trained on AnimeShooter achieves superior cross-shot visual consistency and adherence to reference visual guidance, which highlight the value of our dataset for coherent animated video generation.
PDF222June 4, 2025