ZeroAvatar: 単一画像からのゼロショット3Dアバター生成
ZeroAvatar: Zero-shot 3D Avatar Generation from a Single Image
May 25, 2023
著者: Zhenzhen Weng, Zeyu Wang, Serena Yeung
cs.AI
要旨
テキストから画像への生成技術の最近の進展により、ゼロショット3D形状生成において大きな進歩が実現されている。これは、事前に訓練されたテキストから画像への拡散モデルを用いて、3Dニューラル表現(例えば、Neural Radiance Field: NeRF)のパラメータを最適化するスコア蒸留法によって達成されている。有望な結果を示しているものの、既存の手法はしばしば人体のような複雑な形状の幾何学を保持することができない。この課題に対処するため、本論文ではZeroAvatarを提案する。この手法は、最適化プロセスに明示的な3D人体の事前情報を導入するものである。具体的には、まず単一の画像からパラメトリック人体のパラメータを推定し、精緻化する。その後、最適化中にポーズを取ったパラメトリック人体を追加の幾何学的制約として使用し、拡散モデルおよび基盤となる密度場を正則化する。最後に、不可視の身体部位のテクスチャ補完をさらに導くために、UVガイド付きテクスチャ正則化項を提案する。ZeroAvatarは、最適化ベースの画像から3Dアバター生成のロバスト性と3D一貫性を大幅に向上させ、既存のゼロショット画像から3D手法を凌駕することを示す。
English
Recent advancements in text-to-image generation have enabled significant
progress in zero-shot 3D shape generation. This is achieved by score
distillation, a methodology that uses pre-trained text-to-image diffusion
models to optimize the parameters of a 3D neural presentation, e.g. Neural
Radiance Field (NeRF). While showing promising results, existing methods are
often not able to preserve the geometry of complex shapes, such as human
bodies. To address this challenge, we present ZeroAvatar, a method that
introduces the explicit 3D human body prior to the optimization process.
Specifically, we first estimate and refine the parameters of a parametric human
body from a single image. Then during optimization, we use the posed parametric
body as additional geometry constraint to regularize the diffusion model as
well as the underlying density field. Lastly, we propose a UV-guided texture
regularization term to further guide the completion of texture on invisible
body parts. We show that ZeroAvatar significantly enhances the robustness and
3D consistency of optimization-based image-to-3D avatar generation,
outperforming existing zero-shot image-to-3D methods.