Lokal aufmerksamkeitsbasierte SDF-Diffusion für kontrollierbare 3D-Formgenerierung

Zusammenfassung

Obwohl die jüngste rasche Entwicklung von 3D-generativen neuronalen Netzen die Erzeugung von 3D-Formen erheblich verbessert hat, ist es für gewöhnliche Benutzer immer noch nicht einfach, 3D-Formen zu erstellen und die lokale Geometrie der generierten Formen zu steuern. Um diese Herausforderungen zu bewältigen, schlagen wir ein diffusionsbasiertes 3D-Generierungsframework vor – lokal aufmerksamkeitsbasierte SDF-Diffusion, um plausible 3D-Formen über 2D-Skizzenbilder als Eingabe zu modellieren. Unser Verfahren basiert auf einem zweistufigen Diffusionsmodell. Die erste Stufe, genannt Occupancy-Diffusion, zielt darauf ab, ein niedrigauflösendes Occupancy-Feld zu generieren, um die Formhülle anzunähern. Die zweite Stufe, genannt SDF-Diffusion, synthetisiert ein hochauflösendes Signed Distance Field innerhalb der durch die erste Stufe bestimmten besetzten Voxel, um feine Geometrie zu extrahieren. Unser Modell wird durch einen neuartigen, sichtabhängigen lokalen Aufmerksamkeitsmechanismus für die bildgesteuerte Formgenerierung gestärkt, der die Vorteile von 2D-Bildpatch-Features nutzt, um das Lernen von 3D-Voxel-Features zu leiten, wodurch die lokale Steuerbarkeit und die Generalisierbarkeit des Modells erheblich verbessert werden. Durch umfangreiche Experimente in skizzen- und kategoriegesteuerten 3D-Formgenerierungsaufgaben validieren und demonstrieren wir die Fähigkeit unseres Verfahrens, plausible und vielfältige 3D-Formen bereitzustellen, sowie seine überlegene Steuerbarkeit und Generalisierbarkeit gegenüber bestehenden Arbeiten. Unser Code und trainierte Modelle sind verfügbar unter https://zhengxinyang.github.io/projects/LAS-Diffusion.html.

English

Although the recent rapid evolution of 3D generative neural networks greatly improves 3D shape generation, it is still not convenient for ordinary users to create 3D shapes and control the local geometry of generated shapes. To address these challenges, we propose a diffusion-based 3D generation framework -- locally attentional SDF diffusion, to model plausible 3D shapes, via 2D sketch image input. Our method is built on a two-stage diffusion model. The first stage, named occupancy-diffusion, aims to generate a low-resolution occupancy field to approximate the shape shell. The second stage, named SDF-diffusion, synthesizes a high-resolution signed distance field within the occupied voxels determined by the first stage to extract fine geometry. Our model is empowered by a novel view-aware local attention mechanism for image-conditioned shape generation, which takes advantage of 2D image patch features to guide 3D voxel feature learning, greatly improving local controllability and model generalizability. Through extensive experiments in sketch-conditioned and category-conditioned 3D shape generation tasks, we validate and demonstrate the ability of our method to provide plausible and diverse 3D shapes, as well as its superior controllability and generalizability over existing work. Our code and trained models are available at https://zhengxinyang.github.io/projects/LAS-Diffusion.html

Lokal aufmerksamkeitsbasierte SDF-Diffusion für kontrollierbare 3D-Formgenerierung

Locally Attentional SDF Diffusion for Controllable 3D Shape Generation

Zusammenfassung

Support