Hi3D : Recherche de génération d'images en 3D haute résolution avec des modèles de diffusion vidéo

papers.abstract

Malgré les progrès considérables réalisés dans la génération d'images en 3D, les méthodes existantes peinent encore à produire des images cohérentes multi-vues avec des textures haute résolution détaillées, notamment dans le paradigme de la diffusion 2D qui manque de conscience 3D. Dans ce travail, nous présentons le modèle Image-to-3D Haute Résolution (Hi3D), un nouveau paradigme basé sur la diffusion vidéo qui redéfinit une seule image en images multi-vues en tant que génération d'images séquentielles conscientes de la 3D (c'est-à-dire, génération vidéo orbitale). Cette méthodologie explore les connaissances sous-jacentes de la cohérence temporelle dans le modèle de diffusion vidéo qui se généralise bien à la cohérence géométrique à travers plusieurs vues dans la génération 3D. Techniquement, Hi3D renforce d'abord le modèle de diffusion vidéo pré-entraîné avec une condition préalable consciente de la 3D (position de la caméra), produisant des images multi-vues avec des détails de texture basse résolution. Un raffineur vidéo-à-vidéo conscient de la 3D est appris pour augmenter davantage la résolution des images multi-vues avec des détails de texture haute résolution. Ces images multi-vues haute résolution sont ensuite augmentées avec des vues nouvelles grâce au Splatting Gaussien en 3D, qui sont finalement exploitées pour obtenir des maillages haute fidélité via la reconstruction 3D. Des expériences approfondies sur la synthèse de vues nouvelles et la reconstruction de vues uniques démontrent que notre Hi3D parvient à produire des images cohérentes multi-vues supérieures avec des textures hautement détaillées. Le code source et les données sont disponibles sur https://github.com/yanghb22-fdu/Hi3D-Official.

English

Despite having tremendous progress in image-to-3D generation, existing methods still struggle to produce multi-view consistent images with high-resolution textures in detail, especially in the paradigm of 2D diffusion that lacks 3D awareness. In this work, we present High-resolution Image-to-3D model (Hi3D), a new video diffusion based paradigm that redefines a single image to multi-view images as 3D-aware sequential image generation (i.e., orbital video generation). This methodology delves into the underlying temporal consistency knowledge in video diffusion model that generalizes well to geometry consistency across multiple views in 3D generation. Technically, Hi3D first empowers the pre-trained video diffusion model with 3D-aware prior (camera pose condition), yielding multi-view images with low-resolution texture details. A 3D-aware video-to-video refiner is learnt to further scale up the multi-view images with high-resolution texture details. Such high-resolution multi-view images are further augmented with novel views through 3D Gaussian Splatting, which are finally leveraged to obtain high-fidelity meshes via 3D reconstruction. Extensive experiments on both novel view synthesis and single view reconstruction demonstrate that our Hi3D manages to produce superior multi-view consistency images with highly-detailed textures. Source code and data are available at https://github.com/yanghb22-fdu/Hi3D-Official.

Hi3D : Recherche de génération d'images en 3D haute résolution avec des modèles de diffusion vidéo

Hi3D: Pursuing High-Resolution Image-to-3D Generation with Video Diffusion Models

papers.abstract

Support