TeCH: テキスト誘導による生命感あふれる服装人間の再構築
TeCH: Text-guided Reconstruction of Lifelike Clothed Humans
August 16, 2023
著者: Yangyi Huang, Hongwei Yi, Yuliang Xiu, Tingting Liao, Jiaxiang Tang, Deng Cai, Justus Thies
cs.AI
要旨
単一画像からの衣服を着た人間の再構築に関する最近の研究進展にもかかわらず、「未観測領域」を高精細な詳細で正確に復元することは、十分な注目が払われていない未解決の課題である。既存手法では、ぼやけたテクスチャを持つ過度に滑らかな背面表面が生成されることが多い。しかし、単一画像から個人の全ての視覚的属性を効果的に捉え、それらを未観測領域(例:背面)の再構築に十分な形で活用するにはどうすればよいか?基盤モデルの能力に着想を得て、TeCHは以下の2つを活用して3D人間を再構築する:1)衣服解析モデルと視覚的質問応答(VQA)を介して自動生成される記述的テキストプロンプト(例:衣服、色、髪型)、2)「言葉にできない」外観を学習する個人調整済みテキストto画像拡散モデル(T2I)。高解像度の3D衣服着用人間を低コストで表現するため、明示的な身体形状グリッドと暗黙的距離場で構成されるDMTetに基づくハイブリッド3D表現を提案する。記述的プロンプトと個人調整済みT2I拡散モデルの指導の下、3D人間の形状とテクスチャは、元の観測に基づくマルチビューScore Distillation Sampling(SDS)と再構築損失を通じて最適化される。TeCHは、一貫性と繊細なテクスチャ、詳細な全身形状を備えた高精細な3D衣服着用人間を生成する。定量的・定性的実験により、TeCHが再構築精度とレンダリング品質において最新手法を凌駕することを実証する。コードは研究目的でhttps://huangyangyi.github.io/tech に公開予定である。
English
Despite recent research advancements in reconstructing clothed humans from a
single image, accurately restoring the "unseen regions" with high-level details
remains an unsolved challenge that lacks attention. Existing methods often
generate overly smooth back-side surfaces with a blurry texture. But how to
effectively capture all visual attributes of an individual from a single image,
which are sufficient to reconstruct unseen areas (e.g., the back view)?
Motivated by the power of foundation models, TeCH reconstructs the 3D human by
leveraging 1) descriptive text prompts (e.g., garments, colors, hairstyles)
which are automatically generated via a garment parsing model and Visual
Question Answering (VQA), 2) a personalized fine-tuned Text-to-Image diffusion
model (T2I) which learns the "indescribable" appearance. To represent
high-resolution 3D clothed humans at an affordable cost, we propose a hybrid 3D
representation based on DMTet, which consists of an explicit body shape grid
and an implicit distance field. Guided by the descriptive prompts +
personalized T2I diffusion model, the geometry and texture of the 3D humans are
optimized through multi-view Score Distillation Sampling (SDS) and
reconstruction losses based on the original observation. TeCH produces
high-fidelity 3D clothed humans with consistent & delicate texture, and
detailed full-body geometry. Quantitative and qualitative experiments
demonstrate that TeCH outperforms the state-of-the-art methods in terms of
reconstruction accuracy and rendering quality. The code will be publicly
available for research purposes at https://huangyangyi.github.io/tech