層状表面体積を用いた効率的な3D関節人間生成
Efficient 3D Articulated Human Generation with Layered Surface Volumes
July 11, 2023
著者: Yinghao Xu, Wang Yifan, Alexander W. Bergman, Menglei Chai, Bolei Zhou, Gordon Wetzstein
cs.AI
要旨
高品質で多様な3D関節デジタルヒューマンアセットへのアクセスは、仮想現実からソーシャルプラットフォームまで、さまざまなアプリケーションにおいて極めて重要です。3D生成敵対ネットワーク(GAN)などの生成アプローチは、手間のかかる手動コンテンツ作成ツールを急速に置き換えつつあります。しかし、既存の3D GANフレームワークは通常、テンプレートメッシュ(高速だが品質が限定的)またはボリューム(高容量だがレンダリングが遅い)に依存したシーン表現を利用しており、これがGAN設定における3D忠実度を制限しています。本研究では、関節デジタルヒューマンのための新しい3Dオブジェクト表現として、階層化サーフェスボリューム(LSV)を提案します。LSVは、従来のテンプレートを囲む複数のテクスチャ付きメッシュ層を使用して人体を表現します。これらの層は、高速な微分可能ラスタライゼーションを用いたアルファ合成でレンダリングされ、テンプレート周囲の有限厚さの多様体に容量を割り当てるボリューム表現として解釈できます。従来の単層テンプレートでは髪やアクセサリーなどの細かい表面外の詳細を表現するのが困難でしたが、我々のサーフェスボリュームはそのような詳細を自然に捉えます。LSVは関節化可能であり、2Dジェネレータが個々の層のRGBAテクスチャを合成することを学習するGAN設定において、卓越した効率性を示します。非構造化の単一視点2D画像データセットで学習された我々のLSV-GANは、視点非整合な2Dアップサンプリングネットワークを必要とせずに、高品質で視点整合性のある3D関節デジタルヒューマンを生成します。
English
Access to high-quality and diverse 3D articulated digital human assets is
crucial in various applications, ranging from virtual reality to social
platforms. Generative approaches, such as 3D generative adversarial networks
(GANs), are rapidly replacing laborious manual content creation tools. However,
existing 3D GAN frameworks typically rely on scene representations that
leverage either template meshes, which are fast but offer limited quality, or
volumes, which offer high capacity but are slow to render, thereby limiting the
3D fidelity in GAN settings. In this work, we introduce layered surface volumes
(LSVs) as a new 3D object representation for articulated digital humans. LSVs
represent a human body using multiple textured mesh layers around a
conventional template. These layers are rendered using alpha compositing with
fast differentiable rasterization, and they can be interpreted as a volumetric
representation that allocates its capacity to a manifold of finite thickness
around the template. Unlike conventional single-layer templates that struggle
with representing fine off-surface details like hair or accessories, our
surface volumes naturally capture such details. LSVs can be articulated, and
they exhibit exceptional efficiency in GAN settings, where a 2D generator
learns to synthesize the RGBA textures for the individual layers. Trained on
unstructured, single-view 2D image datasets, our LSV-GAN generates high-quality
and view-consistent 3D articulated digital humans without the need for
view-inconsistent 2D upsampling networks.