Points-to-3D:スパースな点群と形状制御可能なテキストから3D生成の橋渡し
Points-to-3D: Bridging the Gap between Sparse Points and Shape-Controllable Text-to-3D Generation
July 26, 2023
著者: Chaohui Yu, Qiang Zhou, Jingliang Li, Zhe Zhang, Zhibin Wang, Fan Wang
cs.AI
要旨
テキストから3D生成は最近、数十億の画像-テキストペアで学習された2D拡散モデルによって大きな注目を集めています。既存の手法は主に、2D拡散モデルの事前知識を活用して3Dモデル(例:NeRF)の生成を監督するためにスコア蒸留に依存しています。しかし、スコア蒸留は視点の不整合問題に陥りやすく、暗黙的なNeRFモデリングも任意の形状を引き起こすため、現実感が乏しく制御不能な3D生成につながります。本研究では、疎でありながら自由に利用可能な3Dポイントと現実的で形状制御可能な3D生成の間のギャップを埋めるために、2Dおよび3D拡散モデルから知識を蒸留するPoints-to-3Dという柔軟なフレームワークを提案します。Points-to-3Dの核心となるアイデアは、制御可能な疎な3Dポイントを導入してテキストから3D生成をガイドすることです。具体的には、3D拡散モデルであるPoint-Eから生成された疎な点群を、単一の参照画像に基づいた幾何学的な事前知識として使用します。疎な3Dポイントをより効果的に活用するために、NeRFの幾何学を疎な3Dポイントの形状に適応的に整列させる効率的な点群ガイダンス損失を提案します。幾何学を制御するだけでなく、NeRFをより視点整合性のある外観に最適化することを提案します。具体的には、学習されたコンパクトな幾何学の深度マップとテキストに基づいて、公開されている2D画像拡散モデルControlNetに対してスコア蒸留を実行します。定性的および定量的な比較により、Points-to-3Dが視点の整合性を向上させ、テキストから3D生成において良好な形状制御性を達成することが示されています。Points-to-3Dは、ユーザーにテキストから3D生成を改善し制御する新しい方法を提供します。
English
Text-to-3D generation has recently garnered significant attention, fueled by
2D diffusion models trained on billions of image-text pairs. Existing methods
primarily rely on score distillation to leverage the 2D diffusion priors to
supervise the generation of 3D models, e.g., NeRF. However, score distillation
is prone to suffer the view inconsistency problem, and implicit NeRF modeling
can also lead to an arbitrary shape, thus leading to less realistic and
uncontrollable 3D generation. In this work, we propose a flexible framework of
Points-to-3D to bridge the gap between sparse yet freely available 3D points
and realistic shape-controllable 3D generation by distilling the knowledge from
both 2D and 3D diffusion models. The core idea of Points-to-3D is to introduce
controllable sparse 3D points to guide the text-to-3D generation. Specifically,
we use the sparse point cloud generated from the 3D diffusion model, Point-E,
as the geometric prior, conditioned on a single reference image. To better
utilize the sparse 3D points, we propose an efficient point cloud guidance loss
to adaptively drive the NeRF's geometry to align with the shape of the sparse
3D points. In addition to controlling the geometry, we propose to optimize the
NeRF for a more view-consistent appearance. To be specific, we perform score
distillation to the publicly available 2D image diffusion model ControlNet,
conditioned on text as well as depth map of the learned compact geometry.
Qualitative and quantitative comparisons demonstrate that Points-to-3D improves
view consistency and achieves good shape controllability for text-to-3D
generation. Points-to-3D provides users with a new way to improve and control
text-to-3D generation.