局所的な注意機構を備えたSDF拡散による制御可能な3D形状生成
Locally Attentional SDF Diffusion for Controllable 3D Shape Generation
May 8, 2023
著者: Xin-Yang Zheng, Hao Pan, Peng-Shuai Wang, Xin Tong, Yang Liu, Heung-Yeung Shum
cs.AI
要旨
近年の3D生成ニューラルネットワークの急速な進化により、3D形状生成は大幅に改善されましたが、一般ユーザーが3D形状を作成し、生成された形状の局所的なジオメトリを制御するのは依然として容易ではありません。これらの課題に対処するため、我々は2Dスケッチ画像入力を介して、妥当な3D形状をモデル化するための拡散ベースの3D生成フレームワーク——局所注意SDF拡散(locally attentional SDF diffusion)を提案します。我々の手法は、2段階の拡散モデルに基づいています。第一段階は、occupancy-diffusionと呼ばれ、形状のシェルを近似する低解像度の占有場を生成することを目的とします。第二段階は、SDF-diffusionと呼ばれ、第一段階で決定された占有ボクセル内で高解像度の符号付き距離場を合成し、細かいジオメトリを抽出します。我々のモデルは、画像条件付き形状生成のための新しい視点認識局所注意メカニズムによって強化されており、2D画像パッチの特徴を活用して3Dボクセル特徴学習を導くことで、局所制御性とモデルの汎化性能を大幅に向上させます。スケッチ条件付きおよびカテゴリ条件付きの3D形状生成タスクにおける広範な実験を通じて、我々の手法が妥当で多様な3D形状を提供する能力、および既存の研究に対する優れた制御性と汎化性能を検証し、実証します。我々のコードと学習済みモデルは、https://zhengxinyang.github.io/projects/LAS-Diffusion.html で公開されています。
English
Although the recent rapid evolution of 3D generative neural networks greatly
improves 3D shape generation, it is still not convenient for ordinary users to
create 3D shapes and control the local geometry of generated shapes. To address
these challenges, we propose a diffusion-based 3D generation framework --
locally attentional SDF diffusion, to model plausible 3D shapes, via 2D sketch
image input. Our method is built on a two-stage diffusion model. The first
stage, named occupancy-diffusion, aims to generate a low-resolution occupancy
field to approximate the shape shell. The second stage, named SDF-diffusion,
synthesizes a high-resolution signed distance field within the occupied voxels
determined by the first stage to extract fine geometry. Our model is empowered
by a novel view-aware local attention mechanism for image-conditioned shape
generation, which takes advantage of 2D image patch features to guide 3D voxel
feature learning, greatly improving local controllability and model
generalizability. Through extensive experiments in sketch-conditioned and
category-conditioned 3D shape generation tasks, we validate and demonstrate the
ability of our method to provide plausible and diverse 3D shapes, as well as
its superior controllability and generalizability over existing work. Our code
and trained models are available at
https://zhengxinyang.github.io/projects/LAS-Diffusion.html