Локально-внимательная диффузия SDF для управляемой генерации 3D-форм
Locally Attentional SDF Diffusion for Controllable 3D Shape Generation
May 8, 2023
Авторы: Xin-Yang Zheng, Hao Pan, Peng-Shuai Wang, Xin Tong, Yang Liu, Heung-Yeung Shum
cs.AI
Аннотация
Несмотря на стремительное развитие 3D-генеративных нейронных сетей, которое значительно улучшило генерацию трехмерных форм, для обычных пользователей по-прежнему остается неудобным создание 3D-объектов и управление локальной геометрией генерируемых форм. Для решения этих задач мы предлагаем диффузионную 3D-генерационную структуру — локально-внимательную диффузию SDF, которая моделирует правдоподобные 3D-формы на основе входных 2D-эскизов. Наш метод основан на двухэтапной диффузионной модели. Первый этап, называемый occupancy-diffusion, направлен на генерацию низкокачественного поля занятости для аппроксимации оболочки формы. Второй этап, SDF-diffusion, синтезирует высококачественное поле знаковых расстояний внутри вокселей, определенных на первом этапе, для извлечения детальной геометрии. Наша модель использует новый механизм локального внимания, учитывающий вид, для генерации форм на основе изображений. Этот механизм использует особенности 2D-фрагментов изображений для управления обучением 3D-воксельных признаков, что значительно улучшает локальную управляемость и обобщаемость модели. В ходе обширных экспериментов по генерации 3D-форм на основе эскизов и категорий мы подтверждаем и демонстрируем способность нашего метода создавать правдоподобные и разнообразные 3D-формы, а также его превосходную управляемость и обобщаемость по сравнению с существующими подходами. Наш код и обученные модели доступны по адресу: https://zhengxinyang.github.io/projects/LAS-Diffusion.html.
English
Although the recent rapid evolution of 3D generative neural networks greatly
improves 3D shape generation, it is still not convenient for ordinary users to
create 3D shapes and control the local geometry of generated shapes. To address
these challenges, we propose a diffusion-based 3D generation framework --
locally attentional SDF diffusion, to model plausible 3D shapes, via 2D sketch
image input. Our method is built on a two-stage diffusion model. The first
stage, named occupancy-diffusion, aims to generate a low-resolution occupancy
field to approximate the shape shell. The second stage, named SDF-diffusion,
synthesizes a high-resolution signed distance field within the occupied voxels
determined by the first stage to extract fine geometry. Our model is empowered
by a novel view-aware local attention mechanism for image-conditioned shape
generation, which takes advantage of 2D image patch features to guide 3D voxel
feature learning, greatly improving local controllability and model
generalizability. Through extensive experiments in sketch-conditioned and
category-conditioned 3D shape generation tasks, we validate and demonstrate the
ability of our method to provide plausible and diverse 3D shapes, as well as
its superior controllability and generalizability over existing work. Our code
and trained models are available at
https://zhengxinyang.github.io/projects/LAS-Diffusion.html