CharacterShot: Steuerbare und konsistente 4D-Charakteranimation
CharacterShot: Controllable and Consistent 4D Character Animation
August 10, 2025
papers.authors: Junyao Gao, Jiaxing Li, Wenran Liu, Yanhong Zeng, Fei Shen, Kai Chen, Yanan Sun, Cairong Zhao
cs.AI
papers.abstract
In diesem Artikel stellen wir CharacterShot vor, ein kontrollierbares und konsistentes 4D-Charakteranimationsframework, das es jedem einzelnen Designer ermöglicht, dynamische 3D-Charaktere (d.h. 4D-Charakteranimationen) aus einem einzelnen Referenzcharakterbild und einer 2D-Posensequenz zu erstellen. Wir beginnen mit dem Vortraining eines leistungsstarken 2D-Charakteranimationsmodells, das auf einem modernen DiT-basierten Bild-zu-Video-Modell basiert und jede 2D-Posensequenz als kontrollierbares Signal zulässt. Anschließend heben wir das Animationsmodell von 2D auf 3D an, indem wir ein Dual-Attention-Modul zusammen mit einer Kameravorinformation einführen, um multiview-Videos mit räumlich-zeitlicher und räumlich-sichtbarer Konsistenz zu erzeugen. Schließlich wenden wir eine neuartige, nachbar-beschränkte 4D-Gaussian-Splatting-Optimierung auf diese multiview-Videos an, was zu kontinuierlichen und stabilen 4D-Charakterdarstellungen führt. Darüber hinaus haben wir, um die Charakter-zentrierte Leistung zu verbessern, einen umfangreichen Datensatz Character4D erstellt, der 13.115 einzigartige Charaktere mit vielfältigen Erscheinungsbildern und Bewegungen enthält, die aus mehreren Blickwinkeln gerendert wurden. Umfangreiche Experimente auf unserem neu erstellten Benchmark, CharacterBench, zeigen, dass unser Ansatz aktuelle State-of-the-Art-Methoden übertrifft. Code, Modelle und Datensätze werden unter https://github.com/Jeoyal/CharacterShot öffentlich verfügbar sein.
English
In this paper, we propose CharacterShot, a controllable and
consistent 4D character animation framework that enables any individual
designer to create dynamic 3D characters (i.e., 4D character animation) from a
single reference character image and a 2D pose sequence. We begin by
pretraining a powerful 2D character animation model based on a cutting-edge
DiT-based image-to-video model, which allows for any 2D pose sequnce as
controllable signal. We then lift the animation model from 2D to 3D through
introducing dual-attention module together with camera prior to generate
multi-view videos with spatial-temporal and spatial-view consistency. Finally,
we employ a novel neighbor-constrained 4D gaussian splatting optimization on
these multi-view videos, resulting in continuous and stable 4D character
representations. Moreover, to improve character-centric performance, we
construct a large-scale dataset Character4D, containing 13,115 unique
characters with diverse appearances and motions, rendered from multiple
viewpoints. Extensive experiments on our newly constructed benchmark,
CharacterBench, demonstrate that our approach outperforms current
state-of-the-art methods. Code, models, and datasets will be publicly available
at https://github.com/Jeoyal/CharacterShot.