ChatPaper.aiChatPaper

Points-to-3D : Combler l'écart entre les points épars et la génération de formes 3D contrôlables à partir de texte

Points-to-3D: Bridging the Gap between Sparse Points and Shape-Controllable Text-to-3D Generation

July 26, 2023
Auteurs: Chaohui Yu, Qiang Zhou, Jingliang Li, Zhe Zhang, Zhibin Wang, Fan Wang
cs.AI

Résumé

La génération de texte-à-3D a récemment suscité un intérêt considérable, stimulée par les modèles de diffusion 2D entraînés sur des milliards de paires image-texte. Les méthodes existantes reposent principalement sur la distillation de scores pour exploiter les a priori de diffusion 2D afin de superviser la génération de modèles 3D, tels que NeRF. Cependant, la distillation de scores est sujette au problème d'incohérence de vue, et la modélisation implicite de NeRF peut également conduire à des formes arbitraires, ce qui entraîne une génération 3D moins réaliste et difficile à contrôler. Dans ce travail, nous proposons un cadre flexible appelé Points-to-3D pour combler le fossé entre des points 3D épars mais facilement disponibles et une génération 3D réaliste et contrôlable en forme, en distillant les connaissances des modèles de diffusion 2D et 3D. L'idée centrale de Points-to-3D est d'introduire des points 3D épars contrôlables pour guider la génération de texte-à-3D. Plus précisément, nous utilisons le nuage de points épars généré par le modèle de diffusion 3D, Point-E, comme a priori géométrique, conditionné par une seule image de référence. Pour mieux exploiter les points 3D épars, nous proposons une fonction de perte guidée par le nuage de points pour adapter de manière adaptative la géométrie de NeRF afin de l'aligner sur la forme des points 3D épars. En plus de contrôler la géométrie, nous proposons d'optimiser NeRF pour une apparence plus cohérente en vue. Plus précisément, nous effectuons une distillation de scores sur le modèle de diffusion d'images 2D publiquement disponible, ControlNet, conditionné par le texte ainsi que par la carte de profondeur de la géométrie compacte apprise. Les comparaisons qualitatives et quantitatives démontrent que Points-to-3D améliore la cohérence de vue et atteint une bonne contrôlabilité de forme pour la génération de texte-à-3D. Points-to-3D offre aux utilisateurs une nouvelle manière d'améliorer et de contrôler la génération de texte-à-3D.
English
Text-to-3D generation has recently garnered significant attention, fueled by 2D diffusion models trained on billions of image-text pairs. Existing methods primarily rely on score distillation to leverage the 2D diffusion priors to supervise the generation of 3D models, e.g., NeRF. However, score distillation is prone to suffer the view inconsistency problem, and implicit NeRF modeling can also lead to an arbitrary shape, thus leading to less realistic and uncontrollable 3D generation. In this work, we propose a flexible framework of Points-to-3D to bridge the gap between sparse yet freely available 3D points and realistic shape-controllable 3D generation by distilling the knowledge from both 2D and 3D diffusion models. The core idea of Points-to-3D is to introduce controllable sparse 3D points to guide the text-to-3D generation. Specifically, we use the sparse point cloud generated from the 3D diffusion model, Point-E, as the geometric prior, conditioned on a single reference image. To better utilize the sparse 3D points, we propose an efficient point cloud guidance loss to adaptively drive the NeRF's geometry to align with the shape of the sparse 3D points. In addition to controlling the geometry, we propose to optimize the NeRF for a more view-consistent appearance. To be specific, we perform score distillation to the publicly available 2D image diffusion model ControlNet, conditioned on text as well as depth map of the learned compact geometry. Qualitative and quantitative comparisons demonstrate that Points-to-3D improves view consistency and achieves good shape controllability for text-to-3D generation. Points-to-3D provides users with a new way to improve and control text-to-3D generation.
PDF90December 15, 2024