Points-to-3D: Преодоление разрыва между разреженными точками и управляемой формой генерации 3D-моделей на основе текста
Points-to-3D: Bridging the Gap between Sparse Points and Shape-Controllable Text-to-3D Generation
July 26, 2023
Авторы: Chaohui Yu, Qiang Zhou, Jingliang Li, Zhe Zhang, Zhibin Wang, Fan Wang
cs.AI
Аннотация
Генерация 3D-моделей из текста в последнее время привлекает значительное внимание, чему способствуют 2D диффузионные модели, обученные на миллиардах пар изображений и текстов. Существующие методы в основном полагаются на дистилляцию оценок для использования 2D диффузионных априорных знаний для управления генерацией 3D-моделей, таких как NeRF. Однако дистилляция оценок склонна к проблеме несогласованности видов, а неявное моделирование NeRF может приводить к произвольным формам, что делает генерацию 3D менее реалистичной и трудноконтролируемой. В данной работе мы предлагаем гибкую структуру Points-to-3D, которая устраняет разрыв между редкими, но свободно доступными 3D-точками и реалистичной, контролируемой по форме генерацией 3D, используя знания как из 2D, так и из 3D диффузионных моделей. Основная идея Points-to-3D заключается во введении контролируемых редких 3D-точек для управления генерацией 3D из текста. В частности, мы используем редкое облако точек, сгенерированное 3D диффузионной моделью Point-E, в качестве геометрического априори, основываясь на одном эталонном изображении. Для более эффективного использования редких 3D-точек мы предлагаем функцию потерь, основанную на управлении облаком точек, которая адаптивно направляет геометрию NeRF к соответствию с формой редких 3D-точек. Помимо управления геометрией, мы предлагаем оптимизировать NeRF для более согласованного по видам внешнего вида. Конкретно, мы выполняем дистилляцию оценок с использованием общедоступной 2D диффузионной модели изображений ControlNet, основываясь на тексте, а также на карте глубины изученной компактной геометрии. Качественные и количественные сравнения демонстрируют, что Points-to-3D улучшает согласованность видов и обеспечивает хорошую контролируемость формы для генерации 3D из текста. Points-to-3D предоставляет пользователям новый способ улучшения и контроля генерации 3D из текста.
English
Text-to-3D generation has recently garnered significant attention, fueled by
2D diffusion models trained on billions of image-text pairs. Existing methods
primarily rely on score distillation to leverage the 2D diffusion priors to
supervise the generation of 3D models, e.g., NeRF. However, score distillation
is prone to suffer the view inconsistency problem, and implicit NeRF modeling
can also lead to an arbitrary shape, thus leading to less realistic and
uncontrollable 3D generation. In this work, we propose a flexible framework of
Points-to-3D to bridge the gap between sparse yet freely available 3D points
and realistic shape-controllable 3D generation by distilling the knowledge from
both 2D and 3D diffusion models. The core idea of Points-to-3D is to introduce
controllable sparse 3D points to guide the text-to-3D generation. Specifically,
we use the sparse point cloud generated from the 3D diffusion model, Point-E,
as the geometric prior, conditioned on a single reference image. To better
utilize the sparse 3D points, we propose an efficient point cloud guidance loss
to adaptively drive the NeRF's geometry to align with the shape of the sparse
3D points. In addition to controlling the geometry, we propose to optimize the
NeRF for a more view-consistent appearance. To be specific, we perform score
distillation to the publicly available 2D image diffusion model ControlNet,
conditioned on text as well as depth map of the learned compact geometry.
Qualitative and quantitative comparisons demonstrate that Points-to-3D improves
view consistency and achieves good shape controllability for text-to-3D
generation. Points-to-3D provides users with a new way to improve and control
text-to-3D generation.