ReconX: Ricostruire Qualsiasi Scena da Viste Sparse con Modelli di Diffusione Video
ReconX: Reconstruct Any Scene from Sparse Views with Video Diffusion Model
August 29, 2024
Autori: Fangfu Liu, Wenqiang Sun, Hanyang Wang, Yikai Wang, Haowen Sun, Junliang Ye, Jun Zhang, Yueqi Duan
cs.AI
Abstract
I progressi nella ricostruzione di scene 3D hanno trasformato immagini 2D del mondo reale in modelli 3D, producendo risultati tridimensionali realistici a partire da centinaia di foto di input. Nonostante il grande successo negli scenari di ricostruzione a visualizzazione densa, il rendering di una scena dettagliata a partire da un numero insufficiente di visualizzazioni catturate rimane un problema di ottimizzazione mal posto, che spesso si traduce in artefatti e distorsioni nelle aree non visibili. In questo articolo, proponiamo ReconX, un nuovo paradigma di ricostruzione di scene 3D che riformula l'ambigua sfida ricostruttiva come un compito di generazione temporale. L'intuizione chiave è sfruttare il forte *prior* generativo di modelli di diffusione video pre-addestrati su larga scala per la ricostruzione da visualizzazioni sparse. Tuttavia, la coerenza 3D tra le visualizzazioni fatica a essere preservata accuratamente nei fotogrammi video generati direttamente da modelli pre-addestrati. Per affrontare questo problema, dato un numero limitato di visualizzazioni di input, il ReconX proposto costruisce prima una nuvola di punti globale e la codifica in uno spazio contestuale come condizione della struttura 3D. Guidato da questa condizione, il modello di diffusione video sintetizza quindi fotogrammi video che sono sia dettagliati sia caratterizzati da un alto grado di coerenza 3D, garantendo la coerenza della scena da varie prospettive. Infine, recuperiamo la scena 3D dal video generato attraverso uno schema di ottimizzazione *confidence-aware* basato sul *3D Gaussian Splatting*. Esperimenti estesi su vari dataset del mondo reale mostrano la superiorità del nostro ReconX rispetto ai metodi allo stato dell'arte in termini di qualità e generalizzabilità.
English
Advancements in 3D scene reconstruction have transformed 2D images from the
real world into 3D models, producing realistic 3D results from hundreds of
input photos. Despite great success in dense-view reconstruction scenarios,
rendering a detailed scene from insufficient captured views is still an
ill-posed optimization problem, often resulting in artifacts and distortions in
unseen areas. In this paper, we propose ReconX, a novel 3D scene reconstruction
paradigm that reframes the ambiguous reconstruction challenge as a temporal
generation task. The key insight is to unleash the strong generative prior of
large pre-trained video diffusion models for sparse-view reconstruction.
However, 3D view consistency struggles to be accurately preserved in directly
generated video frames from pre-trained models. To address this, given limited
input views, the proposed ReconX first constructs a global point cloud and
encodes it into a contextual space as the 3D structure condition. Guided by the
condition, the video diffusion model then synthesizes video frames that are
both detail-preserved and exhibit a high degree of 3D consistency, ensuring the
coherence of the scene from various perspectives. Finally, we recover the 3D
scene from the generated video through a confidence-aware 3D Gaussian Splatting
optimization scheme. Extensive experiments on various real-world datasets show
the superiority of our ReconX over state-of-the-art methods in terms of quality
and generalizability.