Ani3DHuman: Animación 3D Fotorrealista de Humanos con Muestreo Estocástico Autoguiado

Resumen

Los métodos actuales de animación humana 3D tienen dificultades para lograr fotorrealismo: los enfoques basados en cinemática carecen de dinámicas no rígidas (por ejemplo, dinámicas de la ropa), mientras que los métodos que aprovegan *priors* de difusión de video pueden sintetizar movimiento no rígido pero sufren de artefactos de calidad y pérdida de identidad. Para superar estas limitaciones, presentamos Ani3DHuman, un marco que combina la animación basada en cinemática con *priors* de difusión de video. Primero introducimos una representación de movimiento en capas que separa el movimiento rígido del movimiento residual no rígido. El movimiento rígido es generado por un método cinemático, que luego produce un renderizado aproximado para guiar al modelo de difusión de video en la generación de secuencias de video que restauran el movimiento residual no rígido. Sin embargo, esta tarea de restauración, basada en muestreo por difusión, es muy desafiante, ya que los renderizados iniciales están fuera de distribución, lo que hace que los muestreadores ODE determinísticos estándar fallen. Por lo tanto, proponemos un novedoso método de muestreo estocástico autoguiado, que aborda eficazmente el problema de fuera de distribución al combinar el muestreo estocástico (para calidad fotorrealista) con la autoguía (para fidelidad de identidad). Estos videos restaurados proporcionan una supervisión de alta calidad, permitiendo la optimización del campo de movimiento residual no rígido. Experimentos exhaustivos demuestran que Ani3DHuman puede generar animación humana 3D fotorrealista, superando a los métodos existentes. El código está disponible en https://github.com/qiisun/ani3dhuman.

English

Current 3D human animation methods struggle to achieve photorealism: kinematics-based approaches lack non-rigid dynamics (e.g., clothing dynamics), while methods that leverage video diffusion priors can synthesize non-rigid motion but suffer from quality artifacts and identity loss. To overcome these limitations, we present Ani3DHuman, a framework that marries kinematics-based animation with video diffusion priors. We first introduce a layered motion representation that disentangles rigid motion from residual non-rigid motion. Rigid motion is generated by a kinematic method, which then produces a coarse rendering to guide the video diffusion model in generating video sequences that restore the residual non-rigid motion. However, this restoration task, based on diffusion sampling, is highly challenging, as the initial renderings are out-of-distribution, causing standard deterministic ODE samplers to fail. Therefore, we propose a novel self-guided stochastic sampling method, which effectively addresses the out-of-distribution problem by combining stochastic sampling (for photorealistic quality) with self-guidance (for identity fidelity). These restored videos provide high-quality supervision, enabling the optimization of the residual non-rigid motion field. Extensive experiments demonstrate that \MethodName can generate photorealistic 3D human animation, outperforming existing methods. Code is available in https://github.com/qiisun/ani3dhuman.

Ani3DHuman: Animación 3D Fotorrealista de Humanos con Muestreo Estocástico Autoguiado

Ani3DHuman: Photorealistic 3D Human Animation with Self-guided Stochastic Sampling

Resumen

Support