ChatPaper.aiChatPaper

Difusión de SDF con Atención Local para la Generación Controlable de Formas 3D

Locally Attentional SDF Diffusion for Controllable 3D Shape Generation

May 8, 2023
Autores: Xin-Yang Zheng, Hao Pan, Peng-Shuai Wang, Xin Tong, Yang Liu, Heung-Yeung Shum
cs.AI

Resumen

Aunque la rápida evolución reciente de las redes neuronales generativas 3D ha mejorado significativamente la generación de formas 3D, aún no resulta conveniente para usuarios comunes crear formas 3D y controlar la geometría local de las formas generadas. Para abordar estos desafíos, proponemos un marco de generación 3D basado en difusión —difusión de SDF con atención local—, que modela formas 3D plausibles a partir de una imagen de boceto 2D como entrada. Nuestro método se basa en un modelo de difusión de dos etapas. La primera etapa, denominada difusión de ocupación, tiene como objetivo generar un campo de ocupación de baja resolución para aproximar la envoltura de la forma. La segunda etapa, llamada difusión de SDF, sintetiza un campo de distancia con signo de alta resolución dentro de los vóxeles ocupados determinados por la primera etapa, para extraer una geometría detallada. Nuestro modelo está potenciado por un novedoso mecanismo de atención local consciente de la vista para la generación de formas condicionadas por imágenes, que aprovecha las características de parches de imágenes 2D para guiar el aprendizaje de características de vóxeles 3D, mejorando en gran medida la controlabilidad local y la generalización del modelo. A través de extensos experimentos en tareas de generación de formas 3D condicionadas por bocetos y por categorías, validamos y demostramos la capacidad de nuestro método para proporcionar formas 3D plausibles y diversas, así como su superior controlabilidad y generalización en comparación con trabajos existentes. Nuestro código y modelos entrenados están disponibles en https://zhengxinyang.github.io/projects/LAS-Diffusion.html.
English
Although the recent rapid evolution of 3D generative neural networks greatly improves 3D shape generation, it is still not convenient for ordinary users to create 3D shapes and control the local geometry of generated shapes. To address these challenges, we propose a diffusion-based 3D generation framework -- locally attentional SDF diffusion, to model plausible 3D shapes, via 2D sketch image input. Our method is built on a two-stage diffusion model. The first stage, named occupancy-diffusion, aims to generate a low-resolution occupancy field to approximate the shape shell. The second stage, named SDF-diffusion, synthesizes a high-resolution signed distance field within the occupied voxels determined by the first stage to extract fine geometry. Our model is empowered by a novel view-aware local attention mechanism for image-conditioned shape generation, which takes advantage of 2D image patch features to guide 3D voxel feature learning, greatly improving local controllability and model generalizability. Through extensive experiments in sketch-conditioned and category-conditioned 3D shape generation tasks, we validate and demonstrate the ability of our method to provide plausible and diverse 3D shapes, as well as its superior controllability and generalizability over existing work. Our code and trained models are available at https://zhengxinyang.github.io/projects/LAS-Diffusion.html
PDF20December 15, 2024