ChatPaper.aiChatPaper

Hi3D: Ricerca sulla generazione di immagini in 3D ad alta risoluzione con modelli di diffusione video

Hi3D: Pursuing High-Resolution Image-to-3D Generation with Video Diffusion Models

September 11, 2024
Autori: Haibo Yang, Yang Chen, Yingwei Pan, Ting Yao, Zhineng Chen, Chong-Wah Ngo, Tao Mei
cs.AI

Abstract

Nonostante i notevoli progressi nella generazione di immagini in 3D, i metodi esistenti faticano ancora a produrre immagini coerenti multi-view con texture ad alta risoluzione nei dettagli, specialmente nel paradigma della diffusione 2D che manca di consapevolezza 3D. In questo lavoro, presentiamo il modello Image-to-3D ad alta risoluzione (Hi3D), un nuovo paradigma basato sulla diffusione video che ridefinisce un'immagine singola in immagini multi-view come generazione di immagini sequenziali consapevoli del 3D (cioè, generazione di video orbitali). Questa metodologia approfondisce la conoscenza sottostante della coerenza temporale nel modello di diffusione video che generalizza bene la coerenza geometrica attraverso molteplici visualizzazioni nella generazione 3D. Tecnicamente, Hi3D potenzia innanzitutto il modello di diffusione video pre-addestrato con una precedente consapevolezza del 3D (condizione della posizione della fotocamera), producendo immagini multi-view con dettagli di texture a bassa risoluzione. Viene appreso un raffinatore video-to-video consapevole del 3D per scalare ulteriormente le immagini multi-view con dettagli di texture ad alta risoluzione. Tali immagini multi-view ad alta risoluzione vengono ulteriormente aumentate con visualizzazioni innovative attraverso lo Splatting Gaussiano 3D, che vengono infine sfruttate per ottenere mesh ad alta fedeltà tramite la ricostruzione 3D. Esperimenti approfonditi sia sulla sintesi di visualizzazioni innovative che sulla ricostruzione di visualizzazioni singole dimostrano che il nostro Hi3D riesce a produrre immagini coerenti multi-view superiori con texture altamente dettagliate. Il codice sorgente e i dati sono disponibili su https://github.com/yanghb22-fdu/Hi3D-Official.
English
Despite having tremendous progress in image-to-3D generation, existing methods still struggle to produce multi-view consistent images with high-resolution textures in detail, especially in the paradigm of 2D diffusion that lacks 3D awareness. In this work, we present High-resolution Image-to-3D model (Hi3D), a new video diffusion based paradigm that redefines a single image to multi-view images as 3D-aware sequential image generation (i.e., orbital video generation). This methodology delves into the underlying temporal consistency knowledge in video diffusion model that generalizes well to geometry consistency across multiple views in 3D generation. Technically, Hi3D first empowers the pre-trained video diffusion model with 3D-aware prior (camera pose condition), yielding multi-view images with low-resolution texture details. A 3D-aware video-to-video refiner is learnt to further scale up the multi-view images with high-resolution texture details. Such high-resolution multi-view images are further augmented with novel views through 3D Gaussian Splatting, which are finally leveraged to obtain high-fidelity meshes via 3D reconstruction. Extensive experiments on both novel view synthesis and single view reconstruction demonstrate that our Hi3D manages to produce superior multi-view consistency images with highly-detailed textures. Source code and data are available at https://github.com/yanghb22-fdu/Hi3D-Official.

Summary

AI-Generated Summary

PDF222November 16, 2024