Ani3DHuman: Animação 3D Foto-realista de Humanos com Amostragem Estocástica Auto-guiada

Resumo

Os métodos atuais de animação 3D de humanos lutam para alcançar o fotorrealismo: as abordagens baseadas em cinemática carecem de dinâmicas não rígidas (por exemplo, dinâmica de roupas), enquanto os métodos que utilizam *priors* de difusão de vídeo podem sintetizar movimento não rígido, mas sofrem com artefatos de qualidade e perda de identidade. Para superar essas limitações, apresentamos o Ani3DHuman, uma estrutura que combina animação baseada em cinemática com *priors* de difusão de vídeo. Primeiro, introduzimos uma representação de movimento em camadas que separa o movimento rígido do movimento residual não rígido. O movimento rígido é gerado por um método cinemático, que então produz uma renderização grosseira para orientar o modelo de difusão de vídeo na geração de sequências de vídeo que restauram o movimento residual não rígido. No entanto, esta tarefa de restauração, baseada na amostragem por difusão, é altamente desafiadora, pois as renderizações iniciais estão fora da distribuição, fazendo com que os amostradores ODE determinísticos padrão falhem. Portanto, propomos um novo método de amostragem estocástica autoguiada, que aborda eficazmente o problema de estar fora da distribuição, combinando a amostragem estocástica (para qualidade fotorrealista) com a autoguiada (para fidelidade de identidade). Esses vídeos restaurados fornecem supervisão de alta qualidade, permitindo a otimização do campo de movimento residual não rígido. Experimentos extensivos demonstram que o \MethodName pode gerar animação 3D de humanos fotorrealista, superando os métodos existentes. O código está disponível em https://github.com/qiisun/ani3dhuman.

English

Current 3D human animation methods struggle to achieve photorealism: kinematics-based approaches lack non-rigid dynamics (e.g., clothing dynamics), while methods that leverage video diffusion priors can synthesize non-rigid motion but suffer from quality artifacts and identity loss. To overcome these limitations, we present Ani3DHuman, a framework that marries kinematics-based animation with video diffusion priors. We first introduce a layered motion representation that disentangles rigid motion from residual non-rigid motion. Rigid motion is generated by a kinematic method, which then produces a coarse rendering to guide the video diffusion model in generating video sequences that restore the residual non-rigid motion. However, this restoration task, based on diffusion sampling, is highly challenging, as the initial renderings are out-of-distribution, causing standard deterministic ODE samplers to fail. Therefore, we propose a novel self-guided stochastic sampling method, which effectively addresses the out-of-distribution problem by combining stochastic sampling (for photorealistic quality) with self-guidance (for identity fidelity). These restored videos provide high-quality supervision, enabling the optimization of the residual non-rigid motion field. Extensive experiments demonstrate that \MethodName can generate photorealistic 3D human animation, outperforming existing methods. Code is available in https://github.com/qiisun/ani3dhuman.

Ani3DHuman: Animação 3D Foto-realista de Humanos com Amostragem Estocástica Auto-guiada

Ani3DHuman: Photorealistic 3D Human Animation with Self-guided Stochastic Sampling

Resumo

Support