Lokal aufmerksamkeitsbasierte SDF-Diffusion für kontrollierbare 3D-Formgenerierung
Locally Attentional SDF Diffusion for Controllable 3D Shape Generation
May 8, 2023
Autoren: Xin-Yang Zheng, Hao Pan, Peng-Shuai Wang, Xin Tong, Yang Liu, Heung-Yeung Shum
cs.AI
Zusammenfassung
Obwohl die jüngste rasche Entwicklung von 3D-generativen neuronalen Netzen die Erzeugung von 3D-Formen erheblich verbessert hat, ist es für gewöhnliche Benutzer immer noch nicht einfach, 3D-Formen zu erstellen und die lokale Geometrie der generierten Formen zu steuern. Um diese Herausforderungen zu bewältigen, schlagen wir ein diffusionsbasiertes 3D-Generierungsframework vor – lokal aufmerksamkeitsbasierte SDF-Diffusion, um plausible 3D-Formen über 2D-Skizzenbilder als Eingabe zu modellieren. Unser Verfahren basiert auf einem zweistufigen Diffusionsmodell. Die erste Stufe, genannt Occupancy-Diffusion, zielt darauf ab, ein niedrigauflösendes Occupancy-Feld zu generieren, um die Formhülle anzunähern. Die zweite Stufe, genannt SDF-Diffusion, synthetisiert ein hochauflösendes Signed Distance Field innerhalb der durch die erste Stufe bestimmten besetzten Voxel, um feine Geometrie zu extrahieren. Unser Modell wird durch einen neuartigen, sichtabhängigen lokalen Aufmerksamkeitsmechanismus für die bildgesteuerte Formgenerierung gestärkt, der die Vorteile von 2D-Bildpatch-Features nutzt, um das Lernen von 3D-Voxel-Features zu leiten, wodurch die lokale Steuerbarkeit und die Generalisierbarkeit des Modells erheblich verbessert werden. Durch umfangreiche Experimente in skizzen- und kategoriegesteuerten 3D-Formgenerierungsaufgaben validieren und demonstrieren wir die Fähigkeit unseres Verfahrens, plausible und vielfältige 3D-Formen bereitzustellen, sowie seine überlegene Steuerbarkeit und Generalisierbarkeit gegenüber bestehenden Arbeiten. Unser Code und trainierte Modelle sind verfügbar unter https://zhengxinyang.github.io/projects/LAS-Diffusion.html.
English
Although the recent rapid evolution of 3D generative neural networks greatly
improves 3D shape generation, it is still not convenient for ordinary users to
create 3D shapes and control the local geometry of generated shapes. To address
these challenges, we propose a diffusion-based 3D generation framework --
locally attentional SDF diffusion, to model plausible 3D shapes, via 2D sketch
image input. Our method is built on a two-stage diffusion model. The first
stage, named occupancy-diffusion, aims to generate a low-resolution occupancy
field to approximate the shape shell. The second stage, named SDF-diffusion,
synthesizes a high-resolution signed distance field within the occupied voxels
determined by the first stage to extract fine geometry. Our model is empowered
by a novel view-aware local attention mechanism for image-conditioned shape
generation, which takes advantage of 2D image patch features to guide 3D voxel
feature learning, greatly improving local controllability and model
generalizability. Through extensive experiments in sketch-conditioned and
category-conditioned 3D shape generation tasks, we validate and demonstrate the
ability of our method to provide plausible and diverse 3D shapes, as well as
its superior controllability and generalizability over existing work. Our code
and trained models are available at
https://zhengxinyang.github.io/projects/LAS-Diffusion.html