ReconX: Reconstructie van Willekeurige Scènes uit Schaarse Beelden met een Videodiffusiemodel
ReconX: Reconstruct Any Scene from Sparse Views with Video Diffusion Model
August 29, 2024
Auteurs: Fangfu Liu, Wenqiang Sun, Hanyang Wang, Yikai Wang, Haowen Sun, Junliang Ye, Jun Zhang, Yueqi Duan
cs.AI
Samenvatting
Vooruitgang in 3D-scènereconstructie heeft 2D-beelden uit de echte wereld omgezet in 3D-modellen, waarbij realistische 3D-resultaten worden geproduceerd uit honderden invoerfoto's. Ondanks groot succes in scenario's met dichte-beeldreconstructie, blijft het renderen van een gedetailleerde scène vanuit onvoldoende vastgelegde beeldhoeken een slecht-gesteld optimalisatieprobleem, wat vaak resulteert in artefacten en vervormingen in onbezochte gebieden. In dit artikel stellen we ReconX voor, een nieuw 3D-scènereconstructieparadigma dat de dubbelzinnige reconstructie-uitdaging herformuleert als een temporele generatietaak. Het kerninzicht is om de sterke generatieve prior van grote, vooraf getrainde videodiffusiemodellen los te laten voor reconstructie met weinig beeldhoeken. Echter, 3D-beeldconsistentie blijkt moeilijk nauwkeurig te behouden in rechtstreeks gegenereerde videoframes van vooraf getrainde modellen. Om dit aan te pakken, construeert de voorgestelde ReconX, gegeven beperkte invoerbeelden, eerst een globaal puntenwolk en codeert deze in een contextuele ruimte als 3D-structuurvoorwaarde. Geleid door deze voorwaarde, synthetiseert het videodiffusiemodel vervolgens videoframes die zowel detailbehoudend zijn als een hoge mate van 3D-consistentie vertonen, waardoor de coherentie van de scène vanuit verschillende perspectieven wordt gewaarborgd. Ten slotte herstellen we de 3D-scène uit de gegenereerde video via een confidence-aware 3D Gaussian Splatting-optimalisatieschema. Uitgebreide experimenten op diverse real-world datasets tonen de superioriteit van onze ReconX aan ten opzichte van state-of-the-art methoden wat betreft kwaliteit en generaliseerbaarheid.
English
Advancements in 3D scene reconstruction have transformed 2D images from the
real world into 3D models, producing realistic 3D results from hundreds of
input photos. Despite great success in dense-view reconstruction scenarios,
rendering a detailed scene from insufficient captured views is still an
ill-posed optimization problem, often resulting in artifacts and distortions in
unseen areas. In this paper, we propose ReconX, a novel 3D scene reconstruction
paradigm that reframes the ambiguous reconstruction challenge as a temporal
generation task. The key insight is to unleash the strong generative prior of
large pre-trained video diffusion models for sparse-view reconstruction.
However, 3D view consistency struggles to be accurately preserved in directly
generated video frames from pre-trained models. To address this, given limited
input views, the proposed ReconX first constructs a global point cloud and
encodes it into a contextual space as the 3D structure condition. Guided by the
condition, the video diffusion model then synthesizes video frames that are
both detail-preserved and exhibit a high degree of 3D consistency, ensuring the
coherence of the scene from various perspectives. Finally, we recover the 3D
scene from the generated video through a confidence-aware 3D Gaussian Splatting
optimization scheme. Extensive experiments on various real-world datasets show
the superiority of our ReconX over state-of-the-art methods in terms of quality
and generalizability.