Hi3D : Recherche de génération d'images en 3D haute résolution avec des modèles de diffusion vidéo
Hi3D: Pursuing High-Resolution Image-to-3D Generation with Video Diffusion Models
September 11, 2024
Auteurs: Haibo Yang, Yang Chen, Yingwei Pan, Ting Yao, Zhineng Chen, Chong-Wah Ngo, Tao Mei
cs.AI
Résumé
Malgré les progrès considérables réalisés dans la génération d'images en 3D, les méthodes existantes peinent encore à produire des images cohérentes multi-vues avec des textures haute résolution détaillées, notamment dans le paradigme de la diffusion 2D qui manque de conscience 3D. Dans ce travail, nous présentons le modèle Image-to-3D Haute Résolution (Hi3D), un nouveau paradigme basé sur la diffusion vidéo qui redéfinit une seule image en images multi-vues en tant que génération d'images séquentielles conscientes de la 3D (c'est-à-dire, génération vidéo orbitale). Cette méthodologie explore les connaissances sous-jacentes de la cohérence temporelle dans le modèle de diffusion vidéo qui se généralise bien à la cohérence géométrique à travers plusieurs vues dans la génération 3D. Techniquement, Hi3D renforce d'abord le modèle de diffusion vidéo pré-entraîné avec une condition préalable consciente de la 3D (position de la caméra), produisant des images multi-vues avec des détails de texture basse résolution. Un raffineur vidéo-à-vidéo conscient de la 3D est appris pour augmenter davantage la résolution des images multi-vues avec des détails de texture haute résolution. Ces images multi-vues haute résolution sont ensuite augmentées avec des vues nouvelles grâce au Splatting Gaussien en 3D, qui sont finalement exploitées pour obtenir des maillages haute fidélité via la reconstruction 3D. Des expériences approfondies sur la synthèse de vues nouvelles et la reconstruction de vues uniques démontrent que notre Hi3D parvient à produire des images cohérentes multi-vues supérieures avec des textures hautement détaillées. Le code source et les données sont disponibles sur https://github.com/yanghb22-fdu/Hi3D-Official.
English
Despite having tremendous progress in image-to-3D generation, existing
methods still struggle to produce multi-view consistent images with
high-resolution textures in detail, especially in the paradigm of 2D diffusion
that lacks 3D awareness. In this work, we present High-resolution Image-to-3D
model (Hi3D), a new video diffusion based paradigm that redefines a single
image to multi-view images as 3D-aware sequential image generation (i.e.,
orbital video generation). This methodology delves into the underlying temporal
consistency knowledge in video diffusion model that generalizes well to
geometry consistency across multiple views in 3D generation. Technically, Hi3D
first empowers the pre-trained video diffusion model with 3D-aware prior
(camera pose condition), yielding multi-view images with low-resolution texture
details. A 3D-aware video-to-video refiner is learnt to further scale up the
multi-view images with high-resolution texture details. Such high-resolution
multi-view images are further augmented with novel views through 3D Gaussian
Splatting, which are finally leveraged to obtain high-fidelity meshes via 3D
reconstruction. Extensive experiments on both novel view synthesis and single
view reconstruction demonstrate that our Hi3D manages to produce superior
multi-view consistency images with highly-detailed textures. Source code and
data are available at https://github.com/yanghb22-fdu/Hi3D-Official.Summary
AI-Generated Summary