Ani3DHuman: 自己指導型確率的サンプリングによる写実的3D人物アニメーション
Ani3DHuman: Photorealistic 3D Human Animation with Self-guided Stochastic Sampling
February 22, 2026
著者: Qi Sun, Can Wang, Jiaxiang Shang, Yingchun Liu, Jing Liao
cs.AI
要旨
現在の3D人間アニメーション手法は、写実性の達成に課題を抱えている。キネマティクスベースの手法は非剛体ダイナミクス(例:衣服の動き)を欠き、ビデオ拡散事前分布を活用する手法は非剛体運動を合成できるものの、品質上のアーティファクトやアイデンティティの喪失に悩まされている。これらの限界を克服するため、我々はキネマティクスベースのアニメーションとビデオ拡散事前分布を融合したフレームワークであるAni3DHumanを提案する。まず、剛体運動と残差非剛体運動を分離する階層化モーション表現を導入する。剛体運動はキネマティクス手法により生成され、粗いレンダリングを生成して、残差非剛体運動を復元するビデオシーケンスをビデオ拡散モデルが生成する際のガイドとして機能する。しかし、この拡散サンプリングに基づく復元タスクは非常に困難である。初期レンダリングが分布外であるため、標準的な決定論的ODEサンプラーは失敗する。そこで我々は、確率的サンプリング(写実的な品質のため)と自己ガイダンス(アイデンティティの忠実性のため)を組み合わせることで、分布外問題を効果的に解決する新しい自己ガイド型確率的サンプリング法を提案する。これらの復元されたビデオは高品質な教師信号を提供し、残差非剛体運動フィールドの最適化を可能にする。大規模な実験により、Ani3DHumanが写実的な3D人間アニメーションを生成し、既存手法を凌駕することを実証した。コードはhttps://github.com/qiisun/ani3dhuman で公開されている。
English
Current 3D human animation methods struggle to achieve photorealism: kinematics-based approaches lack non-rigid dynamics (e.g., clothing dynamics), while methods that leverage video diffusion priors can synthesize non-rigid motion but suffer from quality artifacts and identity loss. To overcome these limitations, we present Ani3DHuman, a framework that marries kinematics-based animation with video diffusion priors. We first introduce a layered motion representation that disentangles rigid motion from residual non-rigid motion. Rigid motion is generated by a kinematic method, which then produces a coarse rendering to guide the video diffusion model in generating video sequences that restore the residual non-rigid motion. However, this restoration task, based on diffusion sampling, is highly challenging, as the initial renderings are out-of-distribution, causing standard deterministic ODE samplers to fail. Therefore, we propose a novel self-guided stochastic sampling method, which effectively addresses the out-of-distribution problem by combining stochastic sampling (for photorealistic quality) with self-guidance (for identity fidelity). These restored videos provide high-quality supervision, enabling the optimization of the residual non-rigid motion field. Extensive experiments demonstrate that \MethodName can generate photorealistic 3D human animation, outperforming existing methods. Code is available in https://github.com/qiisun/ani3dhuman.