Points-to-3D: Overbrugging van de kloof tussen puntenwolken en vormbestuurbare tekst-naar-3D-generatie

Samenvatting

Text-to-3D-generatie heeft recentelijk aanzienlijke aandacht gekregen, aangewakkerd door 2D-diffusiemodellen die getraind zijn op miljarden afbeelding-tekstparen. Bestaande methoden vertrouwen voornamelijk op score-distillatie om de 2D-diffusiepriors te benutten voor het begeleiden van de generatie van 3D-modellen, zoals NeRF. Echter, score-distillatie is gevoelig voor het probleem van inconsistentie tussen verschillende gezichtspunten, en impliciete NeRF-modellering kan ook leiden tot willekeurige vormen, wat resulteert in minder realistische en oncontroleerbare 3D-generatie. In dit werk stellen we een flexibel framework voor, Points-to-3D, om de kloof te overbruggen tussen schaarse maar vrij beschikbare 3D-punten en realistische vorm-controleerbare 3D-generatie door kennis te distilleren uit zowel 2D- als 3D-diffusiemodellen. De kernidee van Points-to-3D is het introduceren van controleerbare schaarse 3D-punten om de text-to-3D-generatie te begeleiden. Specifiek gebruiken we het schaarse puntenwolk gegenereerd door het 3D-diffusiemodel, Point-E, als geometrische prior, geconditioneerd op een enkele referentieafbeelding. Om de schaarse 3D-punten beter te benutten, stellen we een efficiënt puntenwolk-begeleidingsverlies voor om de geometrie van de NeRF adaptief af te stemmen op de vorm van de schaarse 3D-punten. Naast het controleren van de geometrie, stellen we voor om de NeRF te optimaliseren voor een meer consistent uiterlijk tussen verschillende gezichtspunten. Specifiek voeren we score-distillatie uit op het publiek beschikbare 2D-afbeeldingsdiffusiemodel ControlNet, geconditioneerd op tekst en een dieptekaart van de geleerde compacte geometrie. Kwalitatieve en kwantitatieve vergelijkingen tonen aan dat Points-to-3D de consistentie tussen gezichtspunten verbetert en goede vorm-controleerbaarheid bereikt voor text-to-3D-generatie. Points-to-3D biedt gebruikers een nieuwe manier om text-to-3D-generatie te verbeteren en te controleren.

English

Text-to-3D generation has recently garnered significant attention, fueled by 2D diffusion models trained on billions of image-text pairs. Existing methods primarily rely on score distillation to leverage the 2D diffusion priors to supervise the generation of 3D models, e.g., NeRF. However, score distillation is prone to suffer the view inconsistency problem, and implicit NeRF modeling can also lead to an arbitrary shape, thus leading to less realistic and uncontrollable 3D generation. In this work, we propose a flexible framework of Points-to-3D to bridge the gap between sparse yet freely available 3D points and realistic shape-controllable 3D generation by distilling the knowledge from both 2D and 3D diffusion models. The core idea of Points-to-3D is to introduce controllable sparse 3D points to guide the text-to-3D generation. Specifically, we use the sparse point cloud generated from the 3D diffusion model, Point-E, as the geometric prior, conditioned on a single reference image. To better utilize the sparse 3D points, we propose an efficient point cloud guidance loss to adaptively drive the NeRF's geometry to align with the shape of the sparse 3D points. In addition to controlling the geometry, we propose to optimize the NeRF for a more view-consistent appearance. To be specific, we perform score distillation to the publicly available 2D image diffusion model ControlNet, conditioned on text as well as depth map of the learned compact geometry. Qualitative and quantitative comparisons demonstrate that Points-to-3D improves view consistency and achieves good shape controllability for text-to-3D generation. Points-to-3D provides users with a new way to improve and control text-to-3D generation.

Points-to-3D: Overbrugging van de kloof tussen puntenwolken en vormbestuurbare tekst-naar-3D-generatie

Points-to-3D: Bridging the Gap between Sparse Points and Shape-Controllable Text-to-3D Generation

Samenvatting

Support