ChatPaper.aiChatPaper

Points-to-3D: Überbrückung der Lücke zwischen spärlichen Punkten und formsteuerbarer Text-zu-3D-Generierung

Points-to-3D: Bridging the Gap between Sparse Points and Shape-Controllable Text-to-3D Generation

July 26, 2023
Autoren: Chaohui Yu, Qiang Zhou, Jingliang Li, Zhe Zhang, Zhibin Wang, Fan Wang
cs.AI

Zusammenfassung

Die Text-zu-3D-Generierung hat in letzter Zeit erhebliche Aufmerksamkeit erregt, angetrieben durch 2D-Diffusionsmodelle, die mit Milliarden von Bild-Text-Paaren trainiert wurden. Bestehende Methoden stützen sich hauptsächlich auf Score-Distillation, um die 2D-Diffusions-Priors zur Überwachung der Generierung von 3D-Modellen, z.B. NeRF, zu nutzen. Allerdings neigt die Score-Distillation dazu, unter dem Problem der Blickinkonsistenz zu leiden, und die implizite NeRF-Modellierung kann ebenfalls zu willkürlichen Formen führen, was zu weniger realistischer und unkontrollierbarer 3D-Generierung führt. In dieser Arbeit schlagen wir ein flexibles Framework namens Points-to-3D vor, um die Lücke zwischen spärlichen, aber frei verfügbaren 3D-Punkten und realistischer, formkontrollierbarer 3D-Generierung zu schließen, indem Wissen sowohl aus 2D- als auch aus 3D-Diffusionsmodellen destilliert wird. Die Kernidee von Points-to-3D besteht darin, kontrollierbare spärliche 3D-Punkte einzuführen, um die Text-zu-3D-Generierung zu steuern. Konkret verwenden wir die spärliche Punktwolke, die aus dem 3D-Diffusionsmodell Point-E generiert wurde, als geometrisches Prior, bedingt auf ein einzelnes Referenzbild. Um die spärlichen 3D-Punkte besser zu nutzen, schlagen wir einen effizienten Punktwolken-Führungsverlust vor, der die Geometrie des NeRF adaptiv dazu anregt, sich an die Form der spärlichen 3D-Punkte anzupassen. Neben der Kontrolle der Geometrie schlagen wir vor, das NeRF für eine konsistentere Darstellung aus verschiedenen Blickwinkeln zu optimieren. Genauer gesagt führen wir eine Score-Distillation mit dem öffentlich verfügbaren 2D-Bilddiffusionsmodell ControlNet durch, bedingt auf Text sowie auf die Tiefenkarte der erlernten kompakten Geometrie. Qualitative und quantitative Vergleiche zeigen, dass Points-to-3D die Blickkonsistenz verbessert und eine gute Formkontrollierbarkeit für die Text-zu-3D-Generierung erreicht. Points-to-3D bietet Nutzern eine neue Möglichkeit, die Text-zu-3D-Generierung zu verbessern und zu steuern.
English
Text-to-3D generation has recently garnered significant attention, fueled by 2D diffusion models trained on billions of image-text pairs. Existing methods primarily rely on score distillation to leverage the 2D diffusion priors to supervise the generation of 3D models, e.g., NeRF. However, score distillation is prone to suffer the view inconsistency problem, and implicit NeRF modeling can also lead to an arbitrary shape, thus leading to less realistic and uncontrollable 3D generation. In this work, we propose a flexible framework of Points-to-3D to bridge the gap between sparse yet freely available 3D points and realistic shape-controllable 3D generation by distilling the knowledge from both 2D and 3D diffusion models. The core idea of Points-to-3D is to introduce controllable sparse 3D points to guide the text-to-3D generation. Specifically, we use the sparse point cloud generated from the 3D diffusion model, Point-E, as the geometric prior, conditioned on a single reference image. To better utilize the sparse 3D points, we propose an efficient point cloud guidance loss to adaptively drive the NeRF's geometry to align with the shape of the sparse 3D points. In addition to controlling the geometry, we propose to optimize the NeRF for a more view-consistent appearance. To be specific, we perform score distillation to the publicly available 2D image diffusion model ControlNet, conditioned on text as well as depth map of the learned compact geometry. Qualitative and quantitative comparisons demonstrate that Points-to-3D improves view consistency and achieves good shape controllability for text-to-3D generation. Points-to-3D provides users with a new way to improve and control text-to-3D generation.
PDF90December 15, 2024