CharacterShot: Animação de Personagens 4D Controlável e Consistente
CharacterShot: Controllable and Consistent 4D Character Animation
August 10, 2025
Autores: Junyao Gao, Jiaxing Li, Wenran Liu, Yanhong Zeng, Fei Shen, Kai Chen, Yanan Sun, Cairong Zhao
cs.AI
Resumo
Neste artigo, propomos o CharacterShot, uma estrutura de animação de personagens 4D controlável e consistente que permite a qualquer designer individual criar personagens 3D dinâmicos (ou seja, animação de personagens 4D) a partir de uma única imagem de referência de personagem e uma sequência de poses 2D. Começamos pré-treinando um poderoso modelo de animação de personagens 2D baseado em um modelo de imagem-para-vídeo de última geração baseado em DiT, que permite qualquer sequência de poses 2D como sinal controlável. Em seguida, elevamos o modelo de animação de 2D para 3D através da introdução de um módulo de atenção dupla juntamente com um prior de câmera para gerar vídeos multi-visão com consistência espaço-temporal e espaço-visual. Finalmente, empregamos uma nova otimização de splatting gaussiano 4D com restrição de vizinhança nesses vídeos multi-visão, resultando em representações de personagens 4D contínuas e estáveis. Além disso, para melhorar o desempenho centrado no personagem, construímos um grande conjunto de dados Character4D, contendo 13.115 personagens únicos com aparências e movimentos diversos, renderizados a partir de múltiplos pontos de vista. Experimentos extensivos em nosso novo benchmark, CharacterBench, demonstram que nossa abordagem supera os métodos atuais de última geração. Códigos, modelos e conjuntos de dados estarão publicamente disponíveis em https://github.com/Jeoyal/CharacterShot.
English
In this paper, we propose CharacterShot, a controllable and
consistent 4D character animation framework that enables any individual
designer to create dynamic 3D characters (i.e., 4D character animation) from a
single reference character image and a 2D pose sequence. We begin by
pretraining a powerful 2D character animation model based on a cutting-edge
DiT-based image-to-video model, which allows for any 2D pose sequnce as
controllable signal. We then lift the animation model from 2D to 3D through
introducing dual-attention module together with camera prior to generate
multi-view videos with spatial-temporal and spatial-view consistency. Finally,
we employ a novel neighbor-constrained 4D gaussian splatting optimization on
these multi-view videos, resulting in continuous and stable 4D character
representations. Moreover, to improve character-centric performance, we
construct a large-scale dataset Character4D, containing 13,115 unique
characters with diverse appearances and motions, rendered from multiple
viewpoints. Extensive experiments on our newly constructed benchmark,
CharacterBench, demonstrate that our approach outperforms current
state-of-the-art methods. Code, models, and datasets will be publicly available
at https://github.com/Jeoyal/CharacterShot.