CharacterShot: Beheersbare en Consistente 4D Karakteranimatie
CharacterShot: Controllable and Consistent 4D Character Animation
August 10, 2025
Auteurs: Junyao Gao, Jiaxing Li, Wenran Liu, Yanhong Zeng, Fei Shen, Kai Chen, Yanan Sun, Cairong Zhao
cs.AI
Samenvatting
In dit artikel presenteren we CharacterShot, een controleerbaar en consistent 4D-karakteranimatieraamwerk waarmee elke individuele ontwerper dynamische 3D-karakters (d.w.z. 4D-karakteranimatie) kan creëren vanuit een enkele referentie-karakterafbeelding en een 2D-posesequentie. We beginnen met het vooraf trainen van een krachtig 2D-karakteranimatiemodel gebaseerd op een geavanceerd DiT-gebaseerd beeld-naar-video model, dat elke 2D-posesequentie als controleerbaar signaal mogelijk maakt. Vervolgens tillen we het animatiemodel van 2D naar 3D door een dual-attention module samen met een cameraprior te introduceren om multi-view video's te genereren met ruimtelijk-temporele en ruimtelijk-view consistentie. Ten slotte passen we een nieuwe nabuurgestuurde 4D Gaussische splatting-optimalisatie toe op deze multi-view video's, wat resulteert in continue en stabiele 4D-karakterrepresentaties. Bovendien hebben we, om de karaktergerichte prestaties te verbeteren, een grootschalige dataset Character4D samengesteld, die 13.115 unieke karakters bevat met diverse uiterlijkheden en bewegingen, gerenderd vanuit meerdere gezichtspunten. Uitgebreide experimenten op onze nieuw geconstrueerde benchmark, CharacterBench, tonen aan dat onze aanpak de huidige state-of-the-art methoden overtreft. Code, modellen en datasets zullen publiekelijk beschikbaar zijn op https://github.com/Jeoyal/CharacterShot.
English
In this paper, we propose CharacterShot, a controllable and
consistent 4D character animation framework that enables any individual
designer to create dynamic 3D characters (i.e., 4D character animation) from a
single reference character image and a 2D pose sequence. We begin by
pretraining a powerful 2D character animation model based on a cutting-edge
DiT-based image-to-video model, which allows for any 2D pose sequnce as
controllable signal. We then lift the animation model from 2D to 3D through
introducing dual-attention module together with camera prior to generate
multi-view videos with spatial-temporal and spatial-view consistency. Finally,
we employ a novel neighbor-constrained 4D gaussian splatting optimization on
these multi-view videos, resulting in continuous and stable 4D character
representations. Moreover, to improve character-centric performance, we
construct a large-scale dataset Character4D, containing 13,115 unique
characters with diverse appearances and motions, rendered from multiple
viewpoints. Extensive experiments on our newly constructed benchmark,
CharacterBench, demonstrate that our approach outperforms current
state-of-the-art methods. Code, models, and datasets will be publicly available
at https://github.com/Jeoyal/CharacterShot.