ChatPaper.aiChatPaper

CharacterShot: Animazione 4D di Personaggi Controllabile e Coerente

CharacterShot: Controllable and Consistent 4D Character Animation

August 10, 2025
Autori: Junyao Gao, Jiaxing Li, Wenran Liu, Yanhong Zeng, Fei Shen, Kai Chen, Yanan Sun, Cairong Zhao
cs.AI

Abstract

In questo articolo, proponiamo CharacterShot, un framework controllabile e coerente per l'animazione 4D di personaggi che consente a qualsiasi designer di creare personaggi 3D dinamici (ovvero animazione 4D di personaggi) a partire da una singola immagine di riferimento del personaggio e da una sequenza di pose 2D. Iniziamo pre-addestrando un potente modello di animazione 2D di personaggi basato su un avanzato modello image-to-video basato su DiT, che consente di utilizzare qualsiasi sequenza di pose 2D come segnale controllabile. Successivamente, eleviamo il modello di animazione da 2D a 3D introducendo un modulo di doppia attenzione insieme a un priore della fotocamera per generare video multi-vista con coerenza spazio-temporale e spazio-visuale. Infine, applichiamo una nuova ottimizzazione basata su splatting gaussiano 4D con vincoli di vicinato su questi video multi-vista, ottenendo rappresentazioni 4D di personaggi continue e stabili. Inoltre, per migliorare le prestazioni centrate sui personaggi, abbiamo costruito un dataset su larga scala, Character4D, contenente 13.115 personaggi unici con aspetto e movimenti diversi, renderizzati da più punti di vista. Esperimenti estesi sul nostro nuovo benchmark, CharacterBench, dimostrano che il nostro approccio supera i metodi attuali all'avanguardia. Codice, modelli e dataset saranno pubblicamente disponibili su https://github.com/Jeoyal/CharacterShot.
English
In this paper, we propose CharacterShot, a controllable and consistent 4D character animation framework that enables any individual designer to create dynamic 3D characters (i.e., 4D character animation) from a single reference character image and a 2D pose sequence. We begin by pretraining a powerful 2D character animation model based on a cutting-edge DiT-based image-to-video model, which allows for any 2D pose sequnce as controllable signal. We then lift the animation model from 2D to 3D through introducing dual-attention module together with camera prior to generate multi-view videos with spatial-temporal and spatial-view consistency. Finally, we employ a novel neighbor-constrained 4D gaussian splatting optimization on these multi-view videos, resulting in continuous and stable 4D character representations. Moreover, to improve character-centric performance, we construct a large-scale dataset Character4D, containing 13,115 unique characters with diverse appearances and motions, rendered from multiple viewpoints. Extensive experiments on our newly constructed benchmark, CharacterBench, demonstrate that our approach outperforms current state-of-the-art methods. Code, models, and datasets will be publicly available at https://github.com/Jeoyal/CharacterShot.
PDF393August 13, 2025