ReconX: Rekonstruktion beliebiger Szenen aus spärlichen Ansichten mit einem Video-Diffusionsmodell
ReconX: Reconstruct Any Scene from Sparse Views with Video Diffusion Model
August 29, 2024
papers.authors: Fangfu Liu, Wenqiang Sun, Hanyang Wang, Yikai Wang, Haowen Sun, Junliang Ye, Jun Zhang, Yueqi Duan
cs.AI
papers.abstract
Fortschritte in der 3D-Szenenrekonstruktion haben 2D-Bilder aus der realen Welt in 3D-Modelle transformiert und ermöglichen realistische 3D-Ergebnisse aus Hunderten von Eingabefotos. Trotz großer Erfolge in Szenarien mit dichter Ansichtsrekonstruktion bleibt das Rendern einer detaillierten Szene aus unzureichend erfassten Ansichten ein schlecht gestelltes Optimierungsproblem, das oft zu Artefakten und Verzerrungen in nicht sichtbaren Bereichen führt. In diesem Artikel schlagen wir ReconX vor, ein neuartiges Paradigma zur 3D-Szenenrekonstruktion, das die mehrdeutige Rekonstruktionsherausforderung als eine zeitliche Generierungsaufgabe neu formuliert. Der zentrale Ansatz besteht darin, das starke generative Vorwissen großer, vortrainierter Video-Diffusionsmodelle für die Rekonstruktion mit spärlichen Ansichten zu nutzen. Allerdings wird die 3D-Ansichtskonsistenz in direkt generierten Videobildern aus vortrainierten Modellen nur unzureichend bewahrt. Um dies zu adressieren, konstruiert das vorgeschlagene ReconX bei begrenzten Eingabeansichten zunächst eine globale Punktwolke und kodiert sie in einen kontextuellen Raum als 3D-Strukturbedingung. Angeleitet durch diese Bedingung synthetisiert das Video-Diffusionsmodell dann Videobilder, die sowohl detailgetreu sind als auch eine hohe 3D-Konsistenz aufweisen, wodurch die Kohärenz der Szene aus verschiedenen Perspektiven sichergestellt wird. Schließlich rekonstruieren wir die 3D-Szene aus dem generierten Video durch ein konfidenzbewusstes 3D-Gaussian-Splatting-Optimierungsschema. Umfangreiche Experimente auf verschiedenen realen Datensätzen zeigen die Überlegenheit unseres ReconX gegenüber state-of-the-art Methoden in Bezug auf Qualität und Generalisierbarkeit.
English
Advancements in 3D scene reconstruction have transformed 2D images from the
real world into 3D models, producing realistic 3D results from hundreds of
input photos. Despite great success in dense-view reconstruction scenarios,
rendering a detailed scene from insufficient captured views is still an
ill-posed optimization problem, often resulting in artifacts and distortions in
unseen areas. In this paper, we propose ReconX, a novel 3D scene reconstruction
paradigm that reframes the ambiguous reconstruction challenge as a temporal
generation task. The key insight is to unleash the strong generative prior of
large pre-trained video diffusion models for sparse-view reconstruction.
However, 3D view consistency struggles to be accurately preserved in directly
generated video frames from pre-trained models. To address this, given limited
input views, the proposed ReconX first constructs a global point cloud and
encodes it into a contextual space as the 3D structure condition. Guided by the
condition, the video diffusion model then synthesizes video frames that are
both detail-preserved and exhibit a high degree of 3D consistency, ensuring the
coherence of the scene from various perspectives. Finally, we recover the 3D
scene from the generated video through a confidence-aware 3D Gaussian Splatting
optimization scheme. Extensive experiments on various real-world datasets show
the superiority of our ReconX over state-of-the-art methods in terms of quality
and generalizability.