Difusão de SDF com Atenção Local para Geração Controlável de Formas 3D

Resumo

Embora a rápida evolução recente das redes neurais generativas 3D tenha melhorado significativamente a geração de formas 3D, ainda não é conveniente para usuários comuns criar formas 3D e controlar a geometria local das formas geradas. Para enfrentar esses desafios, propomos um framework de geração 3D baseado em difusão -- difusão de SDF com atenção local, para modelar formas 3D plausíveis, por meio de entrada de imagem de esboço 2D. Nosso método é construído sobre um modelo de difusão em dois estágios. O primeiro estágio, chamado de difusão de ocupação, visa gerar um campo de ocupação de baixa resolução para aproximar a casca da forma. O segundo estágio, chamado de difusão de SDF, sintetiza um campo de distância sinalizada de alta resolução dentro dos voxels ocupados determinados pelo primeiro estágio, para extrair a geometria detalhada. Nosso modelo é impulsionado por um novo mecanismo de atenção local consciente da visão para geração de formas condicionadas por imagem, que aproveita as características de patches de imagem 2D para orientar o aprendizado de características de voxels 3D, melhorando significativamente a controlabilidade local e a generalização do modelo. Por meio de extensos experimentos em tarefas de geração de formas 3D condicionadas por esboço e por categoria, validamos e demonstramos a capacidade do nosso método de fornecer formas 3D plausíveis e diversas, bem como sua superior controlabilidade e generalização em relação ao trabalho existente. Nosso código e modelos treinados estão disponíveis em https://zhengxinyang.github.io/projects/LAS-Diffusion.html.

English

Although the recent rapid evolution of 3D generative neural networks greatly improves 3D shape generation, it is still not convenient for ordinary users to create 3D shapes and control the local geometry of generated shapes. To address these challenges, we propose a diffusion-based 3D generation framework -- locally attentional SDF diffusion, to model plausible 3D shapes, via 2D sketch image input. Our method is built on a two-stage diffusion model. The first stage, named occupancy-diffusion, aims to generate a low-resolution occupancy field to approximate the shape shell. The second stage, named SDF-diffusion, synthesizes a high-resolution signed distance field within the occupied voxels determined by the first stage to extract fine geometry. Our model is empowered by a novel view-aware local attention mechanism for image-conditioned shape generation, which takes advantage of 2D image patch features to guide 3D voxel feature learning, greatly improving local controllability and model generalizability. Through extensive experiments in sketch-conditioned and category-conditioned 3D shape generation tasks, we validate and demonstrate the ability of our method to provide plausible and diverse 3D shapes, as well as its superior controllability and generalizability over existing work. Our code and trained models are available at https://zhengxinyang.github.io/projects/LAS-Diffusion.html

Difusão de SDF com Atenção Local para Geração Controlável de Formas 3D

Locally Attentional SDF Diffusion for Controllable 3D Shape Generation

Resumo

Support