CharacterShot: Animación de personajes 4D controlable y consistente
CharacterShot: Controllable and Consistent 4D Character Animation
August 10, 2025
Autores: Junyao Gao, Jiaxing Li, Wenran Liu, Yanhong Zeng, Fei Shen, Kai Chen, Yanan Sun, Cairong Zhao
cs.AI
Resumen
En este artículo, proponemos CharacterShot, un marco de animación de personajes 4D controlable y consistente que permite a cualquier diseñador individual crear personajes 3D dinámicos (es decir, animación de personajes 4D) a partir de una única imagen de referencia de un personaje y una secuencia de poses 2D. Comenzamos preentrenando un potente modelo de animación de personajes 2D basado en un modelo de imagen a video de última generación basado en DiT, que permite utilizar cualquier secuencia de poses 2D como señal controlable. Luego, elevamos el modelo de animación de 2D a 3D mediante la introducción de un módulo de doble atención junto con un prior de cámara para generar videos multivista con consistencia espacio-temporal y espacio-visual. Finalmente, aplicamos una novedosa optimización de splatting gaussiano 4D con restricciones de vecindad sobre estos videos multivista, obteniendo representaciones de personajes 4D continuas y estables. Además, para mejorar el rendimiento centrado en el personaje, construimos un conjunto de datos a gran escala, Character4D, que contiene 13,115 personajes únicos con apariencias y movimientos diversos, renderizados desde múltiples puntos de vista. Experimentos exhaustivos en nuestro nuevo benchmark, CharacterBench, demuestran que nuestro enfoque supera a los métodos actuales más avanzados. El código, modelos y conjuntos de datos estarán disponibles públicamente en https://github.com/Jeoyal/CharacterShot.
English
In this paper, we propose CharacterShot, a controllable and
consistent 4D character animation framework that enables any individual
designer to create dynamic 3D characters (i.e., 4D character animation) from a
single reference character image and a 2D pose sequence. We begin by
pretraining a powerful 2D character animation model based on a cutting-edge
DiT-based image-to-video model, which allows for any 2D pose sequnce as
controllable signal. We then lift the animation model from 2D to 3D through
introducing dual-attention module together with camera prior to generate
multi-view videos with spatial-temporal and spatial-view consistency. Finally,
we employ a novel neighbor-constrained 4D gaussian splatting optimization on
these multi-view videos, resulting in continuous and stable 4D character
representations. Moreover, to improve character-centric performance, we
construct a large-scale dataset Character4D, containing 13,115 unique
characters with diverse appearances and motions, rendered from multiple
viewpoints. Extensive experiments on our newly constructed benchmark,
CharacterBench, demonstrate that our approach outperforms current
state-of-the-art methods. Code, models, and datasets will be publicly available
at https://github.com/Jeoyal/CharacterShot.