One-2-3-45: 形状ごとの最適化なしで45秒以内に任意の単一画像から3Dメッシュを生成
One-2-3-45: Any Single Image to 3D Mesh in 45 Seconds without Per-Shape Optimization
June 29, 2023
著者: Minghua Liu, Chao Xu, Haian Jin, Linghao Chen, Mukund Varma T, Zexiang Xu, Hao Su
cs.AI
要旨
単一画像からの3D再構成は、自然界に関する広範な知識を必要とする重要な課題でありながら、非常に困難なタスクです。既存の多くの手法は、2D拡散モデルのガイダンスの下でニューラルラジアンスフィールドを最適化することでこの問題を解決していますが、最適化時間が長い、3Dの一貫性が低い、ジオメトリが貧弱といった課題を抱えています。本研究では、任意の物体の単一画像を入力として受け取り、単一のフォワードパスで360度の3Dテクスチャ付きメッシュを生成する新しい手法を提案します。単一画像が与えられると、まずビュー条件付き2D拡散モデルであるZero123を使用して入力ビューに対するマルチビュー画像を生成し、その後それらを3D空間に持ち上げることを目指します。従来の再構成手法は一貫性のないマルチビュー予測に苦戦するため、我々はSDFベースの汎用可能なニューラルサーフェス再構成手法を基盤とした3D再構成モジュールを構築し、360度メッシュの再構成を可能にするためのいくつかの重要なトレーニング戦略を提案します。コストのかかる最適化を必要とせず、我々の手法は既存の手法よりも大幅に短い時間で3D形状を再構成します。さらに、我々の手法はより優れたジオメトリを実現し、より3D一貫性の高い結果を生成し、入力画像により忠実に従います。我々は合成データと実世界の画像の両方でこのアプローチを評価し、メッシュ品質と実行時間の両面でその優位性を実証します。加えて、我々のアプローチは、既存のテキストから画像への拡散モデルと統合することで、テキストから3Dへのタスクをシームレスにサポートすることができます。
English
Single image 3D reconstruction is an important but challenging task that
requires extensive knowledge of our natural world. Many existing methods solve
this problem by optimizing a neural radiance field under the guidance of 2D
diffusion models but suffer from lengthy optimization time, 3D inconsistency
results, and poor geometry. In this work, we propose a novel method that takes
a single image of any object as input and generates a full 360-degree 3D
textured mesh in a single feed-forward pass. Given a single image, we first use
a view-conditioned 2D diffusion model, Zero123, to generate multi-view images
for the input view, and then aim to lift them up to 3D space. Since traditional
reconstruction methods struggle with inconsistent multi-view predictions, we
build our 3D reconstruction module upon an SDF-based generalizable neural
surface reconstruction method and propose several critical training strategies
to enable the reconstruction of 360-degree meshes. Without costly
optimizations, our method reconstructs 3D shapes in significantly less time
than existing methods. Moreover, our method favors better geometry, generates
more 3D consistent results, and adheres more closely to the input image. We
evaluate our approach on both synthetic data and in-the-wild images and
demonstrate its superiority in terms of both mesh quality and runtime. In
addition, our approach can seamlessly support the text-to-3D task by
integrating with off-the-shelf text-to-image diffusion models.