Tailor3D: 双面画像を用いたカスタマイズ可能な3Dアセット編集と生成
Tailor3D: Customized 3D Assets Editing and Generation with Dual-Side Images
July 8, 2024
著者: Zhangyang Qi, Yunhan Yang, Mengchen Zhang, Long Xing, Xiaoyang Wu, Tong Wu, Dahua Lin, Xihui Liu, Jiaqi Wang, Hengshuang Zhao
cs.AI
要旨
近年の3D AIGC(人工知能生成コンテンツ)の進展により、テキストや画像から直接3Dオブジェクトを生成することが可能となり、アニメーションや製品設計における大幅なコスト削減が期待されています。しかし、3Dアセットの詳細な編集やカスタマイズは依然として長年の課題となっています。具体的には、3D生成手法は、2D画像生成手法と比較して、細かな指示に正確に従う能力が不足しています。例えば、3D AIGCでおもちゃを生成できたとしても、望まないアクセサリーや衣装が付いている場合を想像してください。この課題に取り組むため、私たちはTailor3Dという新しいパイプラインを提案します。これは、編集可能な両面画像から迅速にカスタマイズされた3Dアセットを生成するものです。私たちは、テイラーのようにオブジェクトを局所的に変更したり、全体的なスタイル転送を行ったりする能力を模倣することを目指しています。複数の視点から3Dアセットを作成するのとは異なり、両面画像を使用することで、個々の視点を編集する際に発生する重複領域の矛盾を解消します。具体的には、まず前面図を編集し、その後マルチビューディフュージョンを通じてオブジェクトの背面図を生成します。その後、背面図を編集します。最後に、Dual-sided LRM(両面低ランクモデル)を提案し、前面と背面の3D特徴をシームレスに結合します。これは、テイラーが衣類の前面と背面を縫い合わせるのと同様です。Dual-sided LRMは、前面と背面図の不完全な一貫性を修正し、編集能力を向上させ、メモリ負荷を軽減しながら、LoRA Triplane Transformerを用いて統一された3D表現にシームレスに統合します。実験結果は、Tailor3Dが3D生成および編集タスク(3D生成フィルやスタイル転送など)において有効であることを示しています。Tailor3Dは、ユーザーフレンドリーで効率的な3Dアセット編集ソリューションを提供し、各編集ステップはわずか数秒で完了します。
English
Recent advances in 3D AIGC have shown promise in directly creating 3D objects
from text and images, offering significant cost savings in animation and
product design. However, detailed edit and customization of 3D assets remains a
long-standing challenge. Specifically, 3D Generation methods lack the ability
to follow finely detailed instructions as precisely as their 2D image creation
counterparts. Imagine you can get a toy through 3D AIGC but with undesired
accessories and dressing. To tackle this challenge, we propose a novel pipeline
called Tailor3D, which swiftly creates customized 3D assets from editable
dual-side images. We aim to emulate a tailor's ability to locally change
objects or perform overall style transfer. Unlike creating 3D assets from
multiple views, using dual-side images eliminates conflicts on overlapping
areas that occur when editing individual views. Specifically, it begins by
editing the front view, then generates the back view of the object through
multi-view diffusion. Afterward, it proceeds to edit the back views. Finally, a
Dual-sided LRM is proposed to seamlessly stitch together the front and back 3D
features, akin to a tailor sewing together the front and back of a garment. The
Dual-sided LRM rectifies imperfect consistencies between the front and back
views, enhancing editing capabilities and reducing memory burdens while
seamlessly integrating them into a unified 3D representation with the LoRA
Triplane Transformer. Experimental results demonstrate Tailor3D's effectiveness
across various 3D generation and editing tasks, including 3D generative fill
and style transfer. It provides a user-friendly, efficient solution for editing
3D assets, with each editing step taking only seconds to complete.Summary
AI-Generated Summary