Points-to-3D: Cerrando la Brecha entre Puntos Dispersos y la Generación de Texto a 3D con Control de Forma
Points-to-3D: Bridging the Gap between Sparse Points and Shape-Controllable Text-to-3D Generation
July 26, 2023
Autores: Chaohui Yu, Qiang Zhou, Jingliang Li, Zhe Zhang, Zhibin Wang, Fan Wang
cs.AI
Resumen
La generación de texto a 3D ha recibido recientemente una atención significativa, impulsada por modelos de difusión 2D entrenados con miles de millones de pares de imagen-texto. Los métodos existentes se basan principalmente en la destilación de puntuaciones para aprovechar los conocimientos previos de difusión 2D y supervisar la generación de modelos 3D, como NeRF. Sin embargo, la destilación de puntuaciones tiende a sufrir el problema de inconsistencia de vistas, y el modelado implícito de NeRF también puede dar lugar a formas arbitrarias, lo que resulta en una generación 3D menos realista y difícil de controlar. En este trabajo, proponemos un marco flexible de Puntos-a-3D para cerrar la brecha entre puntos 3D escasos pero fácilmente disponibles y la generación 3D realista y controlable en forma, destilando el conocimiento de modelos de difusión tanto 2D como 3D. La idea central de Puntos-a-3D es introducir puntos 3D escasos y controlables para guiar la generación de texto a 3D. Específicamente, utilizamos la nube de puntos escasa generada por el modelo de difusión 3D, Point-E, como el conocimiento geométrico previo, condicionado por una única imagen de referencia. Para aprovechar mejor los puntos 3D escasos, proponemos una pérdida de guía de nube de puntos eficiente para impulsar adaptativamente la geometría de NeRF para que se alinee con la forma de los puntos 3D escasos. Además de controlar la geometría, proponemos optimizar NeRF para una apariencia más consistente en las vistas. En concreto, realizamos la destilación de puntuaciones en el modelo de difusión de imágenes 2D ControlNet, disponible públicamente, condicionado por el texto y el mapa de profundidad de la geometría compacta aprendida. Las comparaciones cualitativas y cuantitativas demuestran que Puntos-a-3D mejora la consistencia de las vistas y logra una buena controlabilidad de la forma en la generación de texto a 3D. Puntos-a-3D ofrece a los usuarios una nueva forma de mejorar y controlar la generación de texto a 3D.
English
Text-to-3D generation has recently garnered significant attention, fueled by
2D diffusion models trained on billions of image-text pairs. Existing methods
primarily rely on score distillation to leverage the 2D diffusion priors to
supervise the generation of 3D models, e.g., NeRF. However, score distillation
is prone to suffer the view inconsistency problem, and implicit NeRF modeling
can also lead to an arbitrary shape, thus leading to less realistic and
uncontrollable 3D generation. In this work, we propose a flexible framework of
Points-to-3D to bridge the gap between sparse yet freely available 3D points
and realistic shape-controllable 3D generation by distilling the knowledge from
both 2D and 3D diffusion models. The core idea of Points-to-3D is to introduce
controllable sparse 3D points to guide the text-to-3D generation. Specifically,
we use the sparse point cloud generated from the 3D diffusion model, Point-E,
as the geometric prior, conditioned on a single reference image. To better
utilize the sparse 3D points, we propose an efficient point cloud guidance loss
to adaptively drive the NeRF's geometry to align with the shape of the sparse
3D points. In addition to controlling the geometry, we propose to optimize the
NeRF for a more view-consistent appearance. To be specific, we perform score
distillation to the publicly available 2D image diffusion model ControlNet,
conditioned on text as well as depth map of the learned compact geometry.
Qualitative and quantitative comparisons demonstrate that Points-to-3D improves
view consistency and achieves good shape controllability for text-to-3D
generation. Points-to-3D provides users with a new way to improve and control
text-to-3D generation.