Ani3DHuman: Фотореалистичная 3D-анимация человека с самоуправляемым стохастическим сэмплированием

Аннотация

Современные методы 3D-анимации человека сталкиваются с трудностями в достижении фотореалистичности: кинематические подходы лишены нежесткой динамики (например, динамики одежды), в то время как методы, использующие априорные распределения видео-диффузии, способны синтезировать нежесткое движение, но страдают от артефактов качества и потери идентичности. Для преодоления этих ограничений мы представляем Ani3DHuman — фреймворк, объединяющий кинематическую анимацию с априорными данными видео-диффузии. Сначала мы вводим слоистое представление движения, разделяющее жесткое движение на остаточное нежесткое. Жесткое движение генерируется кинематическим методом, который затем создает грубый рендеринг для управления моделью видео-диффузии при генерации видеопоследовательностей, восстанавливающих остаточное нежесткое движение. Однако эта задача восстановления, основанная на диффузионной выборке, является крайне сложной, поскольку исходные рендеры находятся вне распределения, что приводит к сбою стандартных детерминированных ODE-сэмплеров. Поэтому мы предлагаем новый метод стохастической выборки с самоконтролем, который эффективно решает проблему выхода за пределы распределения за счет комбинации стохастической выборки (для фотореалистичного качества) и самоконтроля (для сохранения идентичности). Эти восстановленные видео обеспечивают высококачественный контроль, позволяя оптимизировать поле остаточного нежесткого движения. Многочисленные эксперименты демонстрируют, что Ani3DHuman способен генерировать фотореалистичную 3D-анимацию человека, превосходя существующие методы. Код доступен по адресу https://github.com/qiisun/ani3dhuman.

English

Current 3D human animation methods struggle to achieve photorealism: kinematics-based approaches lack non-rigid dynamics (e.g., clothing dynamics), while methods that leverage video diffusion priors can synthesize non-rigid motion but suffer from quality artifacts and identity loss. To overcome these limitations, we present Ani3DHuman, a framework that marries kinematics-based animation with video diffusion priors. We first introduce a layered motion representation that disentangles rigid motion from residual non-rigid motion. Rigid motion is generated by a kinematic method, which then produces a coarse rendering to guide the video diffusion model in generating video sequences that restore the residual non-rigid motion. However, this restoration task, based on diffusion sampling, is highly challenging, as the initial renderings are out-of-distribution, causing standard deterministic ODE samplers to fail. Therefore, we propose a novel self-guided stochastic sampling method, which effectively addresses the out-of-distribution problem by combining stochastic sampling (for photorealistic quality) with self-guidance (for identity fidelity). These restored videos provide high-quality supervision, enabling the optimization of the residual non-rigid motion field. Extensive experiments demonstrate that \MethodName can generate photorealistic 3D human animation, outperforming existing methods. Code is available in https://github.com/qiisun/ani3dhuman.

Ani3DHuman: Фотореалистичная 3D-анимация человека с самоуправляемым стохастическим сэмплированием

Ani3DHuman: Photorealistic 3D Human Animation with Self-guided Stochastic Sampling

Аннотация

Support