ビデオからアニメーション可能なカテゴリを再構築する
Reconstructing Animatable Categories from Videos
May 10, 2023
著者: Gengshan Yang, Chaoyang Wang, N Dinesh Reddy, Deva Ramanan
cs.AI
要旨
アニメーション可能な3Dモデルの構築は、3Dスキャン、煩雑な位置合わせ、手動リギングが必要であるため、課題が多い。これらは任意のカテゴリに拡張することが困難である。最近、微分可能レンダリングにより単眼ビデオから高品質な3Dモデルを取得する道筋が示されたが、これらは剛体カテゴリや単一インスタンスに限定されている。本論文では、単眼ビデオからカテゴリ3Dモデルを構築しつつ、インスタンス間の変動と時間軸上の動きを分離するRACを提案する。この問題を解決するために、3つの重要なアイデアを導入する:(1) 最適化によるインスタンス固有のスケルトンの特化、(2) カテゴリ全体で共有される構造を促進しつつインスタンスの詳細を維持する潜在空間正則化手法、(3) 背景からオブジェクトを分離するための3D背景モデルの使用。人間、猫、犬の3Dモデルが、50~100本のインターネット動画から学習可能であることを示す。
English
Building animatable 3D models is challenging due to the need for 3D scans,
laborious registration, and manual rigging, which are difficult to scale to
arbitrary categories. Recently, differentiable rendering provides a pathway to
obtain high-quality 3D models from monocular videos, but these are limited to
rigid categories or single instances. We present RAC that builds category 3D
models from monocular videos while disentangling variations over instances and
motion over time. Three key ideas are introduced to solve this problem: (1)
specializing a skeleton to instances via optimization, (2) a method for latent
space regularization that encourages shared structure across a category while
maintaining instance details, and (3) using 3D background models to disentangle
objects from the background. We show that 3D models of humans, cats, and dogs
can be learned from 50-100 internet videos.