Ani3DHuman: Fotorealistische 3D-menselijke animatie met zelfgeleide stochastische bemonstering

Samenvatting

Huidige methoden voor 3D-menselijke animatie worstelen met het bereiken van fotorealisme: kinematische benaderingen missen niet-rigide dynamiek (zoals kledingdynamiek), terwijl methoden die gebruikmaken van videodiffusie-priors niet-rigide beweging kunnen synthetiseren maar lijden onder kwaliteitsartefacten en identiteitsverlies. Om deze beperkingen te overwinnen, presenteren we Ani3DHuman, een framework dat kinematische animatie combineert met videodiffusie-priors. We introduceren eerst een gelaagde bewegingsrepresentatie die rigide beweging scheidt van resterende niet-rigide beweging. Rigide beweging wordt gegenereerd door een kinematische methode, die vervolgens een grove rendering produceert om het videodiffusiemodel te begeleiden bij het genereren van videosequenties die de resterende niet-rigide beweging herstellen. Deze hersteltaak, gebaseerd op diffusie-steekproeven, is echter zeer uitdagend omdat de initiële renderings buiten de verdeling vallen, waardoor standaard deterministische ODE-steekproefnemers falen. Daarom stellen we een nieuwe zelfgeleide stochastische steekproefmethode voor, die het buiten-verdeling-probleem effectief aanpakt door stochastische steekproeven (voor fotorealistische kwaliteit) te combineren met zelfgeleiding (voor identiteitsgetrouwheid). Deze herstelde video's bieden hoogwaardige supervisie, waardoor optimalisatie van het resterende niet-rigide bewegingsveld mogelijk wordt. Uitgebreide experimenten tonen aan dat \MethodName fotorealistische 3D-menselijke animatie kan genereren en daarbij bestaande methoden overtreft. Code is beschikbaar op https://github.com/qiisun/ani3dhuman.

English

Current 3D human animation methods struggle to achieve photorealism: kinematics-based approaches lack non-rigid dynamics (e.g., clothing dynamics), while methods that leverage video diffusion priors can synthesize non-rigid motion but suffer from quality artifacts and identity loss. To overcome these limitations, we present Ani3DHuman, a framework that marries kinematics-based animation with video diffusion priors. We first introduce a layered motion representation that disentangles rigid motion from residual non-rigid motion. Rigid motion is generated by a kinematic method, which then produces a coarse rendering to guide the video diffusion model in generating video sequences that restore the residual non-rigid motion. However, this restoration task, based on diffusion sampling, is highly challenging, as the initial renderings are out-of-distribution, causing standard deterministic ODE samplers to fail. Therefore, we propose a novel self-guided stochastic sampling method, which effectively addresses the out-of-distribution problem by combining stochastic sampling (for photorealistic quality) with self-guidance (for identity fidelity). These restored videos provide high-quality supervision, enabling the optimization of the residual non-rigid motion field. Extensive experiments demonstrate that \MethodName can generate photorealistic 3D human animation, outperforming existing methods. Code is available in https://github.com/qiisun/ani3dhuman.

Ani3DHuman: Fotorealistische 3D-menselijke animatie met zelfgeleide stochastische bemonstering

Ani3DHuman: Photorealistic 3D Human Animation with Self-guided Stochastic Sampling

Samenvatting

Support