ChatPaper.aiChatPaper

CharacterShot: Управляемая и согласованная 4D-анимация персонажей

CharacterShot: Controllable and Consistent 4D Character Animation

August 10, 2025
Авторы: Junyao Gao, Jiaxing Li, Wenran Liu, Yanhong Zeng, Fei Shen, Kai Chen, Yanan Sun, Cairong Zhao
cs.AI

Аннотация

В данной статье мы представляем CharacterShot — управляемый и согласованный фреймворк для 4D-анимации персонажей, который позволяет любому дизайнеру создавать динамичные 3D-персонажи (т.е. 4D-анимацию персонажей) на основе одного эталонного изображения персонажа и последовательности 2D-поз. Мы начинаем с предварительного обучения мощной модели 2D-анимации персонажей, основанной на передовой модели преобразования изображений в видео на базе DiT, которая позволяет использовать любую последовательность 2D-поз в качестве управляющего сигнала. Затем мы переносим модель анимации из 2D в 3D, вводя двойной модуль внимания вместе с априорной информацией о камере для генерации многовидовых видео с пространственно-временной и пространственно-видовой согласованностью. Наконец, мы применяем новую оптимизацию 4D-гауссовского сплайтинга с ограничением по соседству на этих многовидовых видео, что приводит к созданию непрерывных и стабильных 4D-представлений персонажей. Кроме того, для повышения производительности в задачах, связанных с персонажами, мы создаем крупномасштабный набор данных Character4D, содержащий 13 115 уникальных персонажей с разнообразными внешними видами и движениями, отрендеренных с нескольких точек зрения. Многочисленные эксперименты на нашем новом бенчмарке CharacterBench демонстрируют, что наш подход превосходит современные методы. Код, модели и наборы данных будут общедоступны по адресу https://github.com/Jeoyal/CharacterShot.
English
In this paper, we propose CharacterShot, a controllable and consistent 4D character animation framework that enables any individual designer to create dynamic 3D characters (i.e., 4D character animation) from a single reference character image and a 2D pose sequence. We begin by pretraining a powerful 2D character animation model based on a cutting-edge DiT-based image-to-video model, which allows for any 2D pose sequnce as controllable signal. We then lift the animation model from 2D to 3D through introducing dual-attention module together with camera prior to generate multi-view videos with spatial-temporal and spatial-view consistency. Finally, we employ a novel neighbor-constrained 4D gaussian splatting optimization on these multi-view videos, resulting in continuous and stable 4D character representations. Moreover, to improve character-centric performance, we construct a large-scale dataset Character4D, containing 13,115 unique characters with diverse appearances and motions, rendered from multiple viewpoints. Extensive experiments on our newly constructed benchmark, CharacterBench, demonstrate that our approach outperforms current state-of-the-art methods. Code, models, and datasets will be publicly available at https://github.com/Jeoyal/CharacterShot.
PDF343August 13, 2025