Difusão de SDF com Atenção Local para Geração Controlável de Formas 3D
Locally Attentional SDF Diffusion for Controllable 3D Shape Generation
May 8, 2023
Autores: Xin-Yang Zheng, Hao Pan, Peng-Shuai Wang, Xin Tong, Yang Liu, Heung-Yeung Shum
cs.AI
Resumo
Embora a rápida evolução recente das redes neurais generativas 3D tenha melhorado significativamente a geração de formas 3D, ainda não é conveniente para usuários comuns criar formas 3D e controlar a geometria local das formas geradas. Para enfrentar esses desafios, propomos um framework de geração 3D baseado em difusão -- difusão de SDF com atenção local, para modelar formas 3D plausíveis, por meio de entrada de imagem de esboço 2D. Nosso método é construído sobre um modelo de difusão em dois estágios. O primeiro estágio, chamado de difusão de ocupação, visa gerar um campo de ocupação de baixa resolução para aproximar a casca da forma. O segundo estágio, chamado de difusão de SDF, sintetiza um campo de distância sinalizada de alta resolução dentro dos voxels ocupados determinados pelo primeiro estágio, para extrair a geometria detalhada. Nosso modelo é impulsionado por um novo mecanismo de atenção local consciente da visão para geração de formas condicionadas por imagem, que aproveita as características de patches de imagem 2D para orientar o aprendizado de características de voxels 3D, melhorando significativamente a controlabilidade local e a generalização do modelo. Por meio de extensos experimentos em tarefas de geração de formas 3D condicionadas por esboço e por categoria, validamos e demonstramos a capacidade do nosso método de fornecer formas 3D plausíveis e diversas, bem como sua superior controlabilidade e generalização em relação ao trabalho existente. Nosso código e modelos treinados estão disponíveis em https://zhengxinyang.github.io/projects/LAS-Diffusion.html.
English
Although the recent rapid evolution of 3D generative neural networks greatly
improves 3D shape generation, it is still not convenient for ordinary users to
create 3D shapes and control the local geometry of generated shapes. To address
these challenges, we propose a diffusion-based 3D generation framework --
locally attentional SDF diffusion, to model plausible 3D shapes, via 2D sketch
image input. Our method is built on a two-stage diffusion model. The first
stage, named occupancy-diffusion, aims to generate a low-resolution occupancy
field to approximate the shape shell. The second stage, named SDF-diffusion,
synthesizes a high-resolution signed distance field within the occupied voxels
determined by the first stage to extract fine geometry. Our model is empowered
by a novel view-aware local attention mechanism for image-conditioned shape
generation, which takes advantage of 2D image patch features to guide 3D voxel
feature learning, greatly improving local controllability and model
generalizability. Through extensive experiments in sketch-conditioned and
category-conditioned 3D shape generation tasks, we validate and demonstrate the
ability of our method to provide plausible and diverse 3D shapes, as well as
its superior controllability and generalizability over existing work. Our code
and trained models are available at
https://zhengxinyang.github.io/projects/LAS-Diffusion.html