AvatarBooth: 高品質でカスタマイズ可能な3D人間アバター生成
AvatarBooth: High-Quality and Customizable 3D Human Avatar Generation
June 16, 2023
著者: Yifei Zeng, Yuanxun Lu, Xinya Ji, Yao Yao, Hao Zhu, Xun Cao
cs.AI
要旨
AvatarBoothを紹介します。これは、テキストプロンプトや特定の画像を用いて高品質な3Dアバターを生成する新しい手法です。従来の手法が単純なテキスト記述に基づいてアバターを合成するのみであったのに対し、本手法では、カジュアルに撮影された顔や身体の画像からパーソナライズされたアバターを作成することが可能であり、同時にテキストベースのモデル生成と編集もサポートします。本手法の主な貢献は、人間の顔と身体に対して別々にファインチューニングされたデュアル拡散モデルを使用することで、アバター生成を精密に制御できる点です。これにより、顔の外観、衣服、アクセサリーなどの細部を捉え、非常にリアルなアバター生成を実現します。さらに、拡散モデルから合成された頭部画像のマルチビュー一貫性を向上させるために、最適化プロセスにポーズ一貫性制約を導入し、制御不能な人間のポーズによる干渉を排除します。加えて、3Dアバター生成の粗から細への監督を容易にするマルチ解像度レンダリング戦略を提示し、提案システムの性能を向上させます。生成されたアバターモデルは、追加のテキスト記述を用いて編集したり、モーションシーケンスによって駆動したりすることが可能です。実験結果から、AvatarBoothはテキストプロンプトや特定の画像からのレンダリングおよび幾何学的品質において、従来のテキストから3Dへの手法を凌駕することが示されています。プロジェクトの詳細はウェブサイト(https://zeng-yifei.github.io/avatarbooth_page/)をご覧ください。
English
We introduce AvatarBooth, a novel method for generating high-quality 3D
avatars using text prompts or specific images. Unlike previous approaches that
can only synthesize avatars based on simple text descriptions, our method
enables the creation of personalized avatars from casually captured face or
body images, while still supporting text-based model generation and editing.
Our key contribution is the precise avatar generation control by using dual
fine-tuned diffusion models separately for the human face and body. This
enables us to capture intricate details of facial appearance, clothing, and
accessories, resulting in highly realistic avatar generations. Furthermore, we
introduce pose-consistent constraint to the optimization process to enhance the
multi-view consistency of synthesized head images from the diffusion model and
thus eliminate interference from uncontrolled human poses. In addition, we
present a multi-resolution rendering strategy that facilitates coarse-to-fine
supervision of 3D avatar generation, thereby enhancing the performance of the
proposed system. The resulting avatar model can be further edited using
additional text descriptions and driven by motion sequences. Experiments show
that AvatarBooth outperforms previous text-to-3D methods in terms of rendering
and geometric quality from either text prompts or specific images. Please check
our project website at https://zeng-yifei.github.io/avatarbooth_page/.