ReconX : Reconstruction de n'importe quelle scène à partir de vues éparses avec un modèle de diffusion vidéo
ReconX: Reconstruct Any Scene from Sparse Views with Video Diffusion Model
August 29, 2024
papers.authors: Fangfu Liu, Wenqiang Sun, Hanyang Wang, Yikai Wang, Haowen Sun, Junliang Ye, Jun Zhang, Yueqi Duan
cs.AI
papers.abstract
Les avancées en reconstruction de scènes 3D ont permis de transformer des images 2D du monde réel en modèles 3D, produisant des résultats réalistes à partir de centaines de photos d'entrée. Malgré les grands succès dans les scénarios de reconstruction à vues denses, le rendu d'une scène détaillée à partir d'un nombre insuffisant de vues capturées reste un problème d'optimisation mal posé, générant souvent des artéfacts et des distorsions dans les zones non observées. Dans cet article, nous proposons ReconX, un nouveau paradigme de reconstruction de scènes 3D qui reformule le défi de reconstruction ambiguë en une tâche de génération temporelle. L'idée clé est d'exploiter le fort a priori génératif des grands modèles de diffusion vidéo pré-entraînés pour la reconstruction à vues éparses. Cependant, la cohérence 3D entre les vues peine à être préservée avec précision dans les images vidéo générées directement par les modèles pré-entraînés. Pour résoudre ce problème, étant donné un nombre limité de vues d'entrée, ReconX construit d'abord un nuage de points global et l'encode dans un espace contextuel comme condition de structure 3D. Guidé par cette condition, le modèle de diffusion vidéo synthétise ensuite des images vidéo qui préservent les détails tout en présentant un haut degré de cohérence 3D, garantissant la cohérence de la scène sous diverses perspectives. Enfin, nous reconstruisons la scène 3D à partir de la vidéo générée grâce à un schéma d'optimisation par Gaussian Splatting 3D tenant compte de la confiance. Des expériences approfondies sur divers jeux de données du monde réel démontrent la supériorité de notre méthode ReconX par rapport aux méthodes de l'état de l'art en termes de qualité et de généralisabilité.
English
Advancements in 3D scene reconstruction have transformed 2D images from the
real world into 3D models, producing realistic 3D results from hundreds of
input photos. Despite great success in dense-view reconstruction scenarios,
rendering a detailed scene from insufficient captured views is still an
ill-posed optimization problem, often resulting in artifacts and distortions in
unseen areas. In this paper, we propose ReconX, a novel 3D scene reconstruction
paradigm that reframes the ambiguous reconstruction challenge as a temporal
generation task. The key insight is to unleash the strong generative prior of
large pre-trained video diffusion models for sparse-view reconstruction.
However, 3D view consistency struggles to be accurately preserved in directly
generated video frames from pre-trained models. To address this, given limited
input views, the proposed ReconX first constructs a global point cloud and
encodes it into a contextual space as the 3D structure condition. Guided by the
condition, the video diffusion model then synthesizes video frames that are
both detail-preserved and exhibit a high degree of 3D consistency, ensuring the
coherence of the scene from various perspectives. Finally, we recover the 3D
scene from the generated video through a confidence-aware 3D Gaussian Splatting
optimization scheme. Extensive experiments on various real-world datasets show
the superiority of our ReconX over state-of-the-art methods in terms of quality
and generalizability.