ChatPaper.aiChatPaper

CharacterShot : Animation de personnages 4D contrôlable et cohérente

CharacterShot: Controllable and Consistent 4D Character Animation

August 10, 2025
papers.authors: Junyao Gao, Jiaxing Li, Wenran Liu, Yanhong Zeng, Fei Shen, Kai Chen, Yanan Sun, Cairong Zhao
cs.AI

papers.abstract

Dans cet article, nous proposons CharacterShot, un cadre de contrôle et de cohérence pour l'animation de personnages 4D, permettant à tout concepteur individuel de créer des personnages 3D dynamiques (c'est-à-dire une animation de personnage 4D) à partir d'une seule image de référence de personnage et d'une séquence de poses 2D. Nous commençons par pré-entraîner un puissant modèle d'animation de personnage 2D basé sur un modèle de pointe de conversion d'image en vidéo basé sur DiT, qui permet d'utiliser n'importe quelle séquence de poses 2D comme signal de contrôle. Nous élevons ensuite le modèle d'animation de 2D à 3D en introduisant un module de double attention ainsi qu'un a priori de caméra pour générer des vidéos multi-vues avec une cohérence spatio-temporelle et spatio-visuelle. Enfin, nous appliquons une nouvelle optimisation par splatting gaussien 4D contraint par les voisins sur ces vidéos multi-vues, aboutissant à des représentations de personnage 4D continues et stables. De plus, pour améliorer les performances centrées sur les personnages, nous construisons un jeu de données à grande échelle, Character4D, contenant 13 115 personnages uniques avec des apparences et des mouvements variés, rendus à partir de multiples points de vue. Des expériences approfondies sur notre nouveau benchmark, CharacterBench, démontrent que notre approche surpasse les méthodes actuelles de pointe. Le code, les modèles et les jeux de données seront disponibles publiquement à l'adresse https://github.com/Jeoyal/CharacterShot.
English
In this paper, we propose CharacterShot, a controllable and consistent 4D character animation framework that enables any individual designer to create dynamic 3D characters (i.e., 4D character animation) from a single reference character image and a 2D pose sequence. We begin by pretraining a powerful 2D character animation model based on a cutting-edge DiT-based image-to-video model, which allows for any 2D pose sequnce as controllable signal. We then lift the animation model from 2D to 3D through introducing dual-attention module together with camera prior to generate multi-view videos with spatial-temporal and spatial-view consistency. Finally, we employ a novel neighbor-constrained 4D gaussian splatting optimization on these multi-view videos, resulting in continuous and stable 4D character representations. Moreover, to improve character-centric performance, we construct a large-scale dataset Character4D, containing 13,115 unique characters with diverse appearances and motions, rendered from multiple viewpoints. Extensive experiments on our newly constructed benchmark, CharacterBench, demonstrate that our approach outperforms current state-of-the-art methods. Code, models, and datasets will be publicly available at https://github.com/Jeoyal/CharacterShot.
PDF343August 13, 2025