Points-to-3D: Colmare il divario tra punti sparsi e generazione testo-3D con controllo della forma
Points-to-3D: Bridging the Gap between Sparse Points and Shape-Controllable Text-to-3D Generation
July 26, 2023
Autori: Chaohui Yu, Qiang Zhou, Jingliang Li, Zhe Zhang, Zhibin Wang, Fan Wang
cs.AI
Abstract
La generazione di modelli 3D da testo ha recentemente attirato notevole attenzione, grazie ai modelli di diffusione 2D addestrati su miliardi di coppie immagine-testo. I metodi esistenti si basano principalmente sulla distillazione del punteggio per sfruttare i precedenti di diffusione 2D e supervisionare la generazione di modelli 3D, come ad esempio NeRF. Tuttavia, la distillazione del punteggio è incline a soffrire del problema dell'inconsistenza delle viste, e la modellazione implicita di NeRF può anche portare a forme arbitrarie, risultando in una generazione 3D meno realistica e incontrollabile. In questo lavoro, proponiamo un framework flessibile chiamato Points-to-3D per colmare il divario tra punti 3D sparsi ma liberamente disponibili e una generazione 3D realistica e controllabile nella forma, distillando la conoscenza sia da modelli di diffusione 2D che 3D. L'idea centrale di Points-to-3D è introdurre punti 3D sparsi controllabili per guidare la generazione di modelli 3D da testo. Nello specifico, utilizziamo la nuvola di punti sparsa generata dal modello di diffusione 3D, Point-E, come precedente geometrico, condizionato da una singola immagine di riferimento. Per sfruttare al meglio i punti 3D sparsi, proponiamo una perdita di guida efficiente per la nuvola di punti che adattivamente spinge la geometria di NeRF ad allinearsi con la forma dei punti 3D sparsi. Oltre a controllare la geometria, proponiamo di ottimizzare NeRF per un aspetto più coerente tra le viste. Nello specifico, eseguiamo la distillazione del punteggio sul modello di diffusione di immagini 2D pubblicamente disponibile ControlNet, condizionato sia dal testo che dalla mappa di profondità della geometria compatta appresa. Confronti qualitativi e quantitativi dimostrano che Points-to-3D migliora la coerenza delle viste e raggiunge una buona controllabilità della forma nella generazione di modelli 3D da testo. Points-to-3D offre agli utenti un nuovo modo per migliorare e controllare la generazione di modelli 3D da testo.
English
Text-to-3D generation has recently garnered significant attention, fueled by
2D diffusion models trained on billions of image-text pairs. Existing methods
primarily rely on score distillation to leverage the 2D diffusion priors to
supervise the generation of 3D models, e.g., NeRF. However, score distillation
is prone to suffer the view inconsistency problem, and implicit NeRF modeling
can also lead to an arbitrary shape, thus leading to less realistic and
uncontrollable 3D generation. In this work, we propose a flexible framework of
Points-to-3D to bridge the gap between sparse yet freely available 3D points
and realistic shape-controllable 3D generation by distilling the knowledge from
both 2D and 3D diffusion models. The core idea of Points-to-3D is to introduce
controllable sparse 3D points to guide the text-to-3D generation. Specifically,
we use the sparse point cloud generated from the 3D diffusion model, Point-E,
as the geometric prior, conditioned on a single reference image. To better
utilize the sparse 3D points, we propose an efficient point cloud guidance loss
to adaptively drive the NeRF's geometry to align with the shape of the sparse
3D points. In addition to controlling the geometry, we propose to optimize the
NeRF for a more view-consistent appearance. To be specific, we perform score
distillation to the publicly available 2D image diffusion model ControlNet,
conditioned on text as well as depth map of the learned compact geometry.
Qualitative and quantitative comparisons demonstrate that Points-to-3D improves
view consistency and achieves good shape controllability for text-to-3D
generation. Points-to-3D provides users with a new way to improve and control
text-to-3D generation.