Lokaal Attentionele SDF Diffusie voor Beheersbare 3D Vormgeneratie
Locally Attentional SDF Diffusion for Controllable 3D Shape Generation
May 8, 2023
Auteurs: Xin-Yang Zheng, Hao Pan, Peng-Shuai Wang, Xin Tong, Yang Liu, Heung-Yeung Shum
cs.AI
Samenvatting
Hoewel de recente snelle evolutie van 3D-generatieve neurale netwerken de generatie van 3D-vormen aanzienlijk verbetert, is het voor gewone gebruikers nog steeds niet gemakkelijk om 3D-vormen te creëren en de lokale geometrie van gegenereerde vormen te beheersen. Om deze uitdagingen aan te pakken, stellen we een op diffusie gebaseerd 3D-generatieframework voor -- lokaal attentieve SDF-diffusie, om geloofwaardige 3D-vormen te modelleren via 2D-schetsafbeeldingen als invoer. Onze methode is gebouwd op een tweestaps diffusiemodel. De eerste fase, genaamd occupancy-diffusie, heeft als doel een laagresolutie-occupancyveld te genereren om de vormschil te benaderen. De tweede fase, genaamd SDF-diffusie, synthetiseert een hoogresolutie signed distance field binnen de bezette voxels die door de eerste fase zijn bepaald, om fijne geometrie te extraheren. Ons model wordt versterkt door een nieuw view-aware lokaal aandachtmechanisme voor beeldgeconditioneerde vormgeneratie, dat gebruikmaakt van 2D-beeldpatchkenmerken om 3D-voxelkenmerken te begeleiden, waardoor de lokale bestuurbaarheid en modelgeneraliseerbaarheid aanzienlijk worden verbeterd. Door uitgebreide experimenten in schetsgeconditioneerde en categoriegeconditioneerde 3D-vormgeneratietaken valideren en demonstreren we het vermogen van onze methode om geloofwaardige en diverse 3D-vormen te bieden, evenals de superieure bestuurbaarheid en generaliseerbaarheid ten opzichte van bestaand werk. Onze code en getrainde modellen zijn beschikbaar op https://zhengxinyang.github.io/projects/LAS-Diffusion.html.
English
Although the recent rapid evolution of 3D generative neural networks greatly
improves 3D shape generation, it is still not convenient for ordinary users to
create 3D shapes and control the local geometry of generated shapes. To address
these challenges, we propose a diffusion-based 3D generation framework --
locally attentional SDF diffusion, to model plausible 3D shapes, via 2D sketch
image input. Our method is built on a two-stage diffusion model. The first
stage, named occupancy-diffusion, aims to generate a low-resolution occupancy
field to approximate the shape shell. The second stage, named SDF-diffusion,
synthesizes a high-resolution signed distance field within the occupied voxels
determined by the first stage to extract fine geometry. Our model is empowered
by a novel view-aware local attention mechanism for image-conditioned shape
generation, which takes advantage of 2D image patch features to guide 3D voxel
feature learning, greatly improving local controllability and model
generalizability. Through extensive experiments in sketch-conditioned and
category-conditioned 3D shape generation tasks, we validate and demonstrate the
ability of our method to provide plausible and diverse 3D shapes, as well as
its superior controllability and generalizability over existing work. Our code
and trained models are available at
https://zhengxinyang.github.io/projects/LAS-Diffusion.html