ChatPaper.aiChatPaper

Beheersbare Tekst-naar-3D Generatie via Oppervlakte-Uitgelijnde Gaussische Splatting

Controllable Text-to-3D Generation via Surface-Aligned Gaussian Splatting

March 15, 2024
Auteurs: Zhiqi Li, Yiming Chen, Lingzhe Zhao, Peidong Liu
cs.AI

Samenvatting

Hoewel tekst-naar-3D en beeld-naar-3D generatietaken aanzienlijke aandacht hebben gekregen, is een belangrijk maar onderbelicht gebied daartussen de beheersbare tekst-naar-3D generatie, waarop we ons in dit werk voornamelijk richten. Om deze taak aan te pakken, 1) introduceren we Multi-view ControlNet (MVControl), een nieuwe neurale netwerkarchitectuur die is ontworpen om bestaande vooraf getrainde multi-view diffusiemodellen te verbeteren door aanvullende invoercondities te integreren, zoals edge-, depth-, normal- en scribble-maps. Onze innovatie ligt in de introductie van een conditioneringsmodule die het basisdiffusiemodel bestuurt met behulp van zowel lokale als globale embeddings, die worden berekend uit de invoerconditiebeelden en cameraposities. Eenmaal getraind, kan MVControl 3D diffusiebegeleiding bieden voor optimalisatie-gebaseerde 3D-generatie. En, 2) stellen we een efficiënte meerfasige 3D-generatiepijplijn voor die de voordelen benut van recente grote reconstructiemodellen en het score-distillatiealgoritme. Gebaseerd op onze MVControl-architectuur, gebruiken we een unieke hybride diffusiebegeleidingsmethode om het optimalisatieproces te sturen. In het streven naar efficiëntie, nemen we 3D Gaussians als onze representatie in plaats van de veelgebruikte impliciete representaties. We zijn ook pioniers in het gebruik van SuGaR, een hybride representatie die Gaussians bindt aan mesh-driehoekvlakken. Deze aanpak verlicht het probleem van slechte geometrie in 3D Gaussians en maakt het directe sculpten van fijnmazige geometrie op de mesh mogelijk. Uitgebreide experimenten tonen aan dat onze methode robuuste generalisatie bereikt en de beheersbare generatie van hoogwaardige 3D-inhoud mogelijk maakt.
English
While text-to-3D and image-to-3D generation tasks have received considerable attention, one important but under-explored field between them is controllable text-to-3D generation, which we mainly focus on in this work. To address this task, 1) we introduce Multi-view ControlNet (MVControl), a novel neural network architecture designed to enhance existing pre-trained multi-view diffusion models by integrating additional input conditions, such as edge, depth, normal, and scribble maps. Our innovation lies in the introduction of a conditioning module that controls the base diffusion model using both local and global embeddings, which are computed from the input condition images and camera poses. Once trained, MVControl is able to offer 3D diffusion guidance for optimization-based 3D generation. And, 2) we propose an efficient multi-stage 3D generation pipeline that leverages the benefits of recent large reconstruction models and score distillation algorithm. Building upon our MVControl architecture, we employ a unique hybrid diffusion guidance method to direct the optimization process. In pursuit of efficiency, we adopt 3D Gaussians as our representation instead of the commonly used implicit representations. We also pioneer the use of SuGaR, a hybrid representation that binds Gaussians to mesh triangle faces. This approach alleviates the issue of poor geometry in 3D Gaussians and enables the direct sculpting of fine-grained geometry on the mesh. Extensive experiments demonstrate that our method achieves robust generalization and enables the controllable generation of high-quality 3D content.
PDF71February 8, 2026