Diffusion SDF avec Attention Locale pour la Génération Contrôlée de Formes 3D
Locally Attentional SDF Diffusion for Controllable 3D Shape Generation
May 8, 2023
Auteurs: Xin-Yang Zheng, Hao Pan, Peng-Shuai Wang, Xin Tong, Yang Liu, Heung-Yeung Shum
cs.AI
Résumé
Bien que l'évolution rapide récente des réseaux de neurones génératifs 3D ait grandement amélioré la génération de formes 3D, il reste difficile pour les utilisateurs ordinaires de créer des formes 3D et de contrôler la géométrie locale des formes générées. Pour relever ces défis, nous proposons un cadre de génération 3D basé sur la diffusion -- la diffusion SDF à attention locale, pour modéliser des formes 3D plausibles via une entrée d'image de croquis 2D. Notre méthode repose sur un modèle de diffusion en deux étapes. La première étape, appelée diffusion d'occupation, vise à générer un champ d'occupation à basse résolution pour approximer la coque de la forme. La deuxième étape, appelée diffusion SDF, synthétise un champ de distance signée à haute résolution dans les voxels occupés déterminés par la première étape pour extraire une géométrie fine. Notre modèle est renforcé par un mécanisme d'attention locale conscient de la vue pour la génération de formes conditionnée par l'image, qui tire parti des caractéristiques des patchs d'image 2D pour guider l'apprentissage des caractéristiques des voxels 3D, améliorant ainsi considérablement la contrôlabilité locale et la généralisabilité du modèle. À travers des expériences approfondies dans des tâches de génération de formes 3D conditionnées par des croquis et par des catégories, nous validons et démontrons la capacité de notre méthode à fournir des formes 3D plausibles et diversifiées, ainsi que sa contrôlabilité et sa généralisabilité supérieures par rapport aux travaux existants. Notre code et nos modèles entraînés sont disponibles à l'adresse suivante : https://zhengxinyang.github.io/projects/LAS-Diffusion.html
English
Although the recent rapid evolution of 3D generative neural networks greatly
improves 3D shape generation, it is still not convenient for ordinary users to
create 3D shapes and control the local geometry of generated shapes. To address
these challenges, we propose a diffusion-based 3D generation framework --
locally attentional SDF diffusion, to model plausible 3D shapes, via 2D sketch
image input. Our method is built on a two-stage diffusion model. The first
stage, named occupancy-diffusion, aims to generate a low-resolution occupancy
field to approximate the shape shell. The second stage, named SDF-diffusion,
synthesizes a high-resolution signed distance field within the occupied voxels
determined by the first stage to extract fine geometry. Our model is empowered
by a novel view-aware local attention mechanism for image-conditioned shape
generation, which takes advantage of 2D image patch features to guide 3D voxel
feature learning, greatly improving local controllability and model
generalizability. Through extensive experiments in sketch-conditioned and
category-conditioned 3D shape generation tasks, we validate and demonstrate the
ability of our method to provide plausible and diverse 3D shapes, as well as
its superior controllability and generalizability over existing work. Our code
and trained models are available at
https://zhengxinyang.github.io/projects/LAS-Diffusion.html