CharacterShot: Animación de personajes 4D controlable y consistente

Resumen

En este artículo, proponemos CharacterShot, un marco de animación de personajes 4D controlable y consistente que permite a cualquier diseñador individual crear personajes 3D dinámicos (es decir, animación de personajes 4D) a partir de una única imagen de referencia de un personaje y una secuencia de poses 2D. Comenzamos preentrenando un potente modelo de animación de personajes 2D basado en un modelo de imagen a video de última generación basado en DiT, que permite utilizar cualquier secuencia de poses 2D como señal controlable. Luego, elevamos el modelo de animación de 2D a 3D mediante la introducción de un módulo de doble atención junto con un prior de cámara para generar videos multivista con consistencia espacio-temporal y espacio-visual. Finalmente, aplicamos una novedosa optimización de splatting gaussiano 4D con restricciones de vecindad sobre estos videos multivista, obteniendo representaciones de personajes 4D continuas y estables. Además, para mejorar el rendimiento centrado en el personaje, construimos un conjunto de datos a gran escala, Character4D, que contiene 13,115 personajes únicos con apariencias y movimientos diversos, renderizados desde múltiples puntos de vista. Experimentos exhaustivos en nuestro nuevo benchmark, CharacterBench, demuestran que nuestro enfoque supera a los métodos actuales más avanzados. El código, modelos y conjuntos de datos estarán disponibles públicamente en https://github.com/Jeoyal/CharacterShot.

English

In this paper, we propose CharacterShot, a controllable and consistent 4D character animation framework that enables any individual designer to create dynamic 3D characters (i.e., 4D character animation) from a single reference character image and a 2D pose sequence. We begin by pretraining a powerful 2D character animation model based on a cutting-edge DiT-based image-to-video model, which allows for any 2D pose sequnce as controllable signal. We then lift the animation model from 2D to 3D through introducing dual-attention module together with camera prior to generate multi-view videos with spatial-temporal and spatial-view consistency. Finally, we employ a novel neighbor-constrained 4D gaussian splatting optimization on these multi-view videos, resulting in continuous and stable 4D character representations. Moreover, to improve character-centric performance, we construct a large-scale dataset Character4D, containing 13,115 unique characters with diverse appearances and motions, rendered from multiple viewpoints. Extensive experiments on our newly constructed benchmark, CharacterBench, demonstrate that our approach outperforms current state-of-the-art methods. Code, models, and datasets will be publicly available at https://github.com/Jeoyal/CharacterShot.

CharacterShot: Animación de personajes 4D controlable y consistente

CharacterShot: Controllable and Consistent 4D Character Animation

Resumen

Support