Hi3D: 高解像度画像から3D生成を追求するビデオ拡散モデル
Hi3D: Pursuing High-Resolution Image-to-3D Generation with Video Diffusion Models
September 11, 2024
著者: Haibo Yang, Yang Chen, Yingwei Pan, Ting Yao, Zhineng Chen, Chong-Wah Ngo, Tao Mei
cs.AI
要旨
画像から3D生成において莫大な進歩があるにもかかわらず、既存の手法は、特に3D認識を欠く2D拡散のパラダイムにおいて、高解像度の詳細なテクスチャを持つマルチビュー一貫性のある画像を生成するのに苦労しています。本研究では、新しいビデオ拡散ベースのパラダイムである高解像度画像から3Dモデル(Hi3D)を提案し、単一の画像を3D認識のある連続画像生成(すなわち、軌道ビデオ生成)として再定義します。この手法は、ビデオ拡散モデル内の基本的な時間的一貫性知識に掘り下げ、3D生成において複数のビュー間でジオメトリの一貫性を一般化するものです。技術的には、Hi3Dはまず、事前にトレーニングされたビデオ拡散モデルに3D認識の事前条件(カメラポーズ条件)を付与し、低解像度のテクスチャ詳細を持つマルチビュー画像を生成します。3D認識ビデオからビデオへのリファイナーが学習され、高解像度のテクスチャ詳細を持つマルチビュー画像をさらに拡大します。このような高解像度のマルチビュー画像は、3Dガウススプラッティングを介して新しいビューで拡張され、最終的に3D再構築を通じて高品質なメッシュを得るために活用されます。新しいビュー合成と単一ビュー再構築の両方での広範な実験により、当社のHi3Dは、高度に詳細なテクスチャを持つ優れたマルチビュー一貫性画像を生成することに成功していることが示されています。ソースコードとデータは、https://github.com/yanghb22-fdu/Hi3D-Official で入手可能です。
English
Despite having tremendous progress in image-to-3D generation, existing
methods still struggle to produce multi-view consistent images with
high-resolution textures in detail, especially in the paradigm of 2D diffusion
that lacks 3D awareness. In this work, we present High-resolution Image-to-3D
model (Hi3D), a new video diffusion based paradigm that redefines a single
image to multi-view images as 3D-aware sequential image generation (i.e.,
orbital video generation). This methodology delves into the underlying temporal
consistency knowledge in video diffusion model that generalizes well to
geometry consistency across multiple views in 3D generation. Technically, Hi3D
first empowers the pre-trained video diffusion model with 3D-aware prior
(camera pose condition), yielding multi-view images with low-resolution texture
details. A 3D-aware video-to-video refiner is learnt to further scale up the
multi-view images with high-resolution texture details. Such high-resolution
multi-view images are further augmented with novel views through 3D Gaussian
Splatting, which are finally leveraged to obtain high-fidelity meshes via 3D
reconstruction. Extensive experiments on both novel view synthesis and single
view reconstruction demonstrate that our Hi3D manages to produce superior
multi-view consistency images with highly-detailed textures. Source code and
data are available at https://github.com/yanghb22-fdu/Hi3D-Official.Summary
AI-Generated Summary