ReconX: Реконструкция любой сцены по разреженным видам с использованием видеодиффузионной модели
ReconX: Reconstruct Any Scene from Sparse Views with Video Diffusion Model
August 29, 2024
Авторы: Fangfu Liu, Wenqiang Sun, Hanyang Wang, Yikai Wang, Haowen Sun, Junliang Ye, Jun Zhang, Yueqi Duan
cs.AI
Аннотация
Достижения в области реконструкции 3D-сцен позволили преобразовать 2D-изображения из реального мира в 3D-модели, создавая реалистичные 3D-результаты на основе сотен входных фотографий. Несмотря на значительные успехи в сценариях реконструкции с плотным охватом, рендеринг детализированной сцены при недостаточном количестве захваченных ракурсов остается некорректно поставленной оптимизационной задачей, что часто приводит к артефактам и искажениям в невидимых областях. В данной работе мы предлагаем ReconX — новую парадигму реконструкции 3D-сцен, которая переосмысливает неоднозначную задачу реконструкции как задачу временной генерации. Ключевая идея заключается в использовании мощного генеративного потенциала крупных предобученных моделей диффузии видео для реконструкции сцен с малым количеством ракурсов. Однако точное сохранение 3D-согласованности в непосредственно сгенерированных кадрах видео из предобученных моделей остается сложной задачей. Для решения этой проблемы, при ограниченном количестве входных ракурсов, предложенный ReconX сначала строит глобальное облако точек и кодирует его в контекстное пространство как условие 3D-структуры. Руководствуясь этим условием, модель диффузии видео синтезирует кадры, которые сохраняют детали и демонстрируют высокую степень 3D-согласованности, обеспечивая целостность сцены с различных точек зрения. Наконец, мы восстанавливаем 3D-сцену из сгенерированного видео с помощью оптимизационной схемы на основе 3D-гауссовского сплаттинга с учетом уверенности. Многочисленные эксперименты на различных наборах данных реального мира демонстрируют превосходство нашего ReconX по сравнению с современными методами с точки зрения качества и обобщаемости.
English
Advancements in 3D scene reconstruction have transformed 2D images from the
real world into 3D models, producing realistic 3D results from hundreds of
input photos. Despite great success in dense-view reconstruction scenarios,
rendering a detailed scene from insufficient captured views is still an
ill-posed optimization problem, often resulting in artifacts and distortions in
unseen areas. In this paper, we propose ReconX, a novel 3D scene reconstruction
paradigm that reframes the ambiguous reconstruction challenge as a temporal
generation task. The key insight is to unleash the strong generative prior of
large pre-trained video diffusion models for sparse-view reconstruction.
However, 3D view consistency struggles to be accurately preserved in directly
generated video frames from pre-trained models. To address this, given limited
input views, the proposed ReconX first constructs a global point cloud and
encodes it into a contextual space as the 3D structure condition. Guided by the
condition, the video diffusion model then synthesizes video frames that are
both detail-preserved and exhibit a high degree of 3D consistency, ensuring the
coherence of the scene from various perspectives. Finally, we recover the 3D
scene from the generated video through a confidence-aware 3D Gaussian Splatting
optimization scheme. Extensive experiments on various real-world datasets show
the superiority of our ReconX over state-of-the-art methods in terms of quality
and generalizability.