Diffusione SDF con Attenzione Locale per la Generazione Controllabile di Forme 3D
Locally Attentional SDF Diffusion for Controllable 3D Shape Generation
May 8, 2023
Autori: Xin-Yang Zheng, Hao Pan, Peng-Shuai Wang, Xin Tong, Yang Liu, Heung-Yeung Shum
cs.AI
Abstract
Sebbene la recente e rapida evoluzione delle reti neurali generative 3D abbia notevolmente migliorato la generazione di forme 3D, per gli utenti comuni non è ancora conveniente creare forme 3D e controllare la geometria locale delle forme generate. Per affrontare queste sfide, proponiamo un framework di generazione 3D basato su diffusione -- la diffusione SDF con attenzione locale, per modellare forme 3D plausibili, tramite input di immagini di schizzi 2D. Il nostro metodo è costruito su un modello di diffusione a due stadi. Il primo stadio, denominato diffusione di occupazione, mira a generare un campo di occupazione a bassa risoluzione per approssimare il guscio della forma. Il secondo stadio, denominato diffusione SDF, sintetizza un campo di distanza con segno ad alta risoluzione all'interno dei voxel occupati determinati dal primo stadio per estrarre la geometria fine. Il nostro modello è potenziato da un nuovo meccanismo di attenzione locale consapevole della vista per la generazione di forme condizionate da immagini, che sfrutta le caratteristiche delle patch di immagini 2D per guidare l'apprendimento delle caratteristiche dei voxel 3D, migliorando notevolmente la controllabilità locale e la generalizzabilità del modello. Attraverso esperimenti estesi nei compiti di generazione di forme 3D condizionati da schizzi e da categorie, convalidiamo e dimostriamo la capacità del nostro metodo di fornire forme 3D plausibili e diversificate, nonché la sua superiore controllabilità e generalizzabilità rispetto ai lavori esistenti. Il nostro codice e i modelli addestrati sono disponibili all'indirizzo https://zhengxinyang.github.io/projects/LAS-Diffusion.html.
English
Although the recent rapid evolution of 3D generative neural networks greatly
improves 3D shape generation, it is still not convenient for ordinary users to
create 3D shapes and control the local geometry of generated shapes. To address
these challenges, we propose a diffusion-based 3D generation framework --
locally attentional SDF diffusion, to model plausible 3D shapes, via 2D sketch
image input. Our method is built on a two-stage diffusion model. The first
stage, named occupancy-diffusion, aims to generate a low-resolution occupancy
field to approximate the shape shell. The second stage, named SDF-diffusion,
synthesizes a high-resolution signed distance field within the occupied voxels
determined by the first stage to extract fine geometry. Our model is empowered
by a novel view-aware local attention mechanism for image-conditioned shape
generation, which takes advantage of 2D image patch features to guide 3D voxel
feature learning, greatly improving local controllability and model
generalizability. Through extensive experiments in sketch-conditioned and
category-conditioned 3D shape generation tasks, we validate and demonstrate the
ability of our method to provide plausible and diverse 3D shapes, as well as
its superior controllability and generalizability over existing work. Our code
and trained models are available at
https://zhengxinyang.github.io/projects/LAS-Diffusion.html