Ani3DHuman: 자기 지도 확률적 샘플링을 통한 사실적 3D 인간 애니메이션
Ani3DHuman: Photorealistic 3D Human Animation with Self-guided Stochastic Sampling
February 22, 2026
저자: Qi Sun, Can Wang, Jiaxiang Shang, Yingchun Liu, Jing Liao
cs.AI
초록
현재 3D 인간 애니메이션 방법론은 사실적 표현에 어려움을 겪고 있습니다: 운동학 기반 접근법은 비강체 역학(예: 의상 역학)이 부족한 반면, 비디오 확산 사전 지식을 활용하는 방법론은 비강체 운동을 합성할 수 있지만 품질 결함과 정체성 손실 문제가 발생합니다. 이러한 한계를 극복하기 위해 우리는 운동학 기반 애니메이션과 비디오 확산 사전 지식을 결합한 Ani3DHuman 프레임워크를 제안합니다. 우리는 먼저 강체 운동과 잔여 비강체 운동을 분리하는 계층적 운동 표현을 도입합니다. 강체 운동은 운동학적 방법으로 생성되며, 이는 비디오 확산 모델이 잔여 비강체 운동을 복원하는 비디오 시퀀스 생성을 안내하는 개략적 렌더링을 생성합니다. 그러나 확산 샘플링에 기반한 이 복원 작업은 초기 렌더링이 분포 외 데이터에 해당하여 표준 결정론적 ODE 샘플러가 실패하기 때문에 매우 어려운 과제입니다. 따라서 우리는 확률적 샘플링(사실적 품질용)과 자체 가이던스(정체성 충실도용)를 결합하여 분포 외 문제를 효과적으로 해결하는 새로운 자체 가이드 확률적 샘플링 방법을 제안합니다. 이러한 복원된 비디오는 고품질 감독 데이터로 작용하여 잔여 비강체 운동 필드의 최적화를 가능하게 합니다. 폭넓은 실험을 통해 Ani3DHuman이 기존 방법론을 능가하는 사실적인 3D 인간 애니메이션을 생성할 수 있음을 입증합니다. 코드는 https://github.com/qiisun/ani3dhuman에서 확인할 수 있습니다.
English
Current 3D human animation methods struggle to achieve photorealism: kinematics-based approaches lack non-rigid dynamics (e.g., clothing dynamics), while methods that leverage video diffusion priors can synthesize non-rigid motion but suffer from quality artifacts and identity loss. To overcome these limitations, we present Ani3DHuman, a framework that marries kinematics-based animation with video diffusion priors. We first introduce a layered motion representation that disentangles rigid motion from residual non-rigid motion. Rigid motion is generated by a kinematic method, which then produces a coarse rendering to guide the video diffusion model in generating video sequences that restore the residual non-rigid motion. However, this restoration task, based on diffusion sampling, is highly challenging, as the initial renderings are out-of-distribution, causing standard deterministic ODE samplers to fail. Therefore, we propose a novel self-guided stochastic sampling method, which effectively addresses the out-of-distribution problem by combining stochastic sampling (for photorealistic quality) with self-guidance (for identity fidelity). These restored videos provide high-quality supervision, enabling the optimization of the residual non-rigid motion field. Extensive experiments demonstrate that \MethodName can generate photorealistic 3D human animation, outperforming existing methods. Code is available in https://github.com/qiisun/ani3dhuman.