Points-to-3D: Conectando a Lacuna entre Pontos Esparsos e a Geração de Texto para 3D com Controle de Forma
Points-to-3D: Bridging the Gap between Sparse Points and Shape-Controllable Text-to-3D Generation
July 26, 2023
Autores: Chaohui Yu, Qiang Zhou, Jingliang Li, Zhe Zhang, Zhibin Wang, Fan Wang
cs.AI
Resumo
A geração de Texto-para-3D tem recebido atenção significativa recentemente, impulsionada por modelos de difusão 2D treinados em bilhões de pares imagem-texto. Os métodos existentes dependem principalmente da destilação de scores para aproveitar os priors de difusão 2D e supervisionar a geração de modelos 3D, como NeRF. No entanto, a destilação de scores é propensa ao problema de inconsistência de visão, e a modelagem implícita do NeRF também pode resultar em formas arbitrárias, levando a uma geração 3D menos realista e incontrolável. Neste trabalho, propomos uma estrutura flexível de Pontos-para-3D para preencher a lacuna entre pontos 3D esparsos, mas amplamente disponíveis, e a geração 3D realista e controlável em termos de forma, destilando o conhecimento de modelos de difusão 2D e 3D. A ideia central do Pontos-para-3D é introduzir pontos 3D esparsos controláveis para orientar a geração de texto-para-3D. Especificamente, usamos a nuvem de pontos esparsa gerada pelo modelo de difusão 3D, Point-E, como prior geométrico, condicionado a uma única imagem de referência. Para melhor utilizar os pontos 3D esparsos, propomos uma função de perda de orientação de nuvem de pontos eficiente para adaptativamente alinhar a geometria do NeRF com a forma dos pontos 3D esparsos. Além de controlar a geometria, propomos otimizar o NeRF para uma aparência mais consistente em diferentes visões. Especificamente, realizamos a destilação de scores no modelo de difusão de imagens 2D ControlNet, disponível publicamente, condicionado ao texto e ao mapa de profundidade da geometria compacta aprendida. Comparações qualitativas e quantitativas demonstram que o Pontos-para-3D melhora a consistência de visão e alcança uma boa controlabilidade de forma na geração de texto-para-3D. O Pontos-para-3D oferece aos usuários uma nova maneira de melhorar e controlar a geração de texto-para-3D.
English
Text-to-3D generation has recently garnered significant attention, fueled by
2D diffusion models trained on billions of image-text pairs. Existing methods
primarily rely on score distillation to leverage the 2D diffusion priors to
supervise the generation of 3D models, e.g., NeRF. However, score distillation
is prone to suffer the view inconsistency problem, and implicit NeRF modeling
can also lead to an arbitrary shape, thus leading to less realistic and
uncontrollable 3D generation. In this work, we propose a flexible framework of
Points-to-3D to bridge the gap between sparse yet freely available 3D points
and realistic shape-controllable 3D generation by distilling the knowledge from
both 2D and 3D diffusion models. The core idea of Points-to-3D is to introduce
controllable sparse 3D points to guide the text-to-3D generation. Specifically,
we use the sparse point cloud generated from the 3D diffusion model, Point-E,
as the geometric prior, conditioned on a single reference image. To better
utilize the sparse 3D points, we propose an efficient point cloud guidance loss
to adaptively drive the NeRF's geometry to align with the shape of the sparse
3D points. In addition to controlling the geometry, we propose to optimize the
NeRF for a more view-consistent appearance. To be specific, we perform score
distillation to the publicly available 2D image diffusion model ControlNet,
conditioned on text as well as depth map of the learned compact geometry.
Qualitative and quantitative comparisons demonstrate that Points-to-3D improves
view consistency and achieves good shape controllability for text-to-3D
generation. Points-to-3D provides users with a new way to improve and control
text-to-3D generation.