Ani3DHuman: Animazione Fotorealistica di Umani 3D con Campionamento Stocastico Autoguidato

Abstract

Gli attuali metodi di animazione umana 3D faticano a raggiungere il fotorealismo: gli approcci basati sulla cinematica mancano di dinamiche non rigide (ad esempio, la dinamica degli indumenti), mentre i metodi che sfruttano i prior di diffusione video possono sintetizzare movimenti non rigidi ma soffrono di artefatti qualitativi e perdita d'identità. Per superare queste limitazioni, presentiamo Ani3DHuman, un framework che combina l'animazione basata sulla cinematica con i prior di diffusione video. Introduciamo innanzitutto una rappresentazione del movimento a strati che separa il movimento rigido dal movimento non rigido residuo. Il movimento rigido è generato da un metodo cinematico, che produce poi un rendering approssimativo per guidare il modello di diffusione video nella generazione di sequenze video che ripristinano il movimento non rigido residuo. Tuttavia, questo compito di ripristino, basato sul campionamento di diffusione, è estremamente impegnativo, poiché i rendering iniziali sono fuori distribuzione, causando il fallimento dei normali campionatori deterministici ODE. Pertanto, proponiamo un innovativo metodo di campionamento stocastico auto-guidato, che affronta efficacemente il problema del fuori distribuzione combinando il campionamento stocastico (per la qualità fotorealistica) con l'auto-guidaggio (per la fedeltà dell'identità). Questi video ripristinati forniscono una supervisione di alta qualità, consentendo l'ottimizzazione del campo di movimento non rigido residuo. Esperimenti estensivi dimostrano che Ani3DHuman può generare animazioni umane 3D fotorealistiche, superando i metodi esistenti. Il codice è disponibile su https://github.com/qiisun/ani3dhuman.

English

Current 3D human animation methods struggle to achieve photorealism: kinematics-based approaches lack non-rigid dynamics (e.g., clothing dynamics), while methods that leverage video diffusion priors can synthesize non-rigid motion but suffer from quality artifacts and identity loss. To overcome these limitations, we present Ani3DHuman, a framework that marries kinematics-based animation with video diffusion priors. We first introduce a layered motion representation that disentangles rigid motion from residual non-rigid motion. Rigid motion is generated by a kinematic method, which then produces a coarse rendering to guide the video diffusion model in generating video sequences that restore the residual non-rigid motion. However, this restoration task, based on diffusion sampling, is highly challenging, as the initial renderings are out-of-distribution, causing standard deterministic ODE samplers to fail. Therefore, we propose a novel self-guided stochastic sampling method, which effectively addresses the out-of-distribution problem by combining stochastic sampling (for photorealistic quality) with self-guidance (for identity fidelity). These restored videos provide high-quality supervision, enabling the optimization of the residual non-rigid motion field. Extensive experiments demonstrate that \MethodName can generate photorealistic 3D human animation, outperforming existing methods. Code is available in https://github.com/qiisun/ani3dhuman.

Ani3DHuman: Animazione Fotorealistica di Umani 3D con Campionamento Stocastico Autoguidato

Ani3DHuman: Photorealistic 3D Human Animation with Self-guided Stochastic Sampling

Abstract

Support