ChatPaper.aiChatPaper

Vivid4D: Mejora de la reconstrucción 4D a partir de vídeo monocular mediante la restauración de vídeo

Vivid4D: Improving 4D Reconstruction from Monocular Video by Video Inpainting

April 15, 2025
Autores: Jiaxin Huang, Sheng Miao, BangBnag Yang, Yuewen Ma, Yiyi Liao
cs.AI

Resumen

Reconstruir escenas dinámicas 4D a partir de videos monoculares capturados casualmente es valioso pero altamente desafiante, ya que cada instante de tiempo se observa desde un único punto de vista. Presentamos Vivid4D, un enfoque novedoso que mejora la síntesis de videos monoculares 4D mediante la ampliación de las vistas de observación, sintetizando videos multivista a partir de una entrada monocular. A diferencia de los métodos existentes que solo aprovechan priores geométricos para la supervisión o utilizan priores generativos ignorando la geometría, nosotros integramos ambos. Esto reformula la ampliación de vistas como una tarea de inpainting de video, donde las vistas observadas se transforman en nuevos puntos de vista basados en priores de profundidad monocular. Para lograrlo, entrenamos un modelo de inpainting de video en videos web sin pose con máscaras generadas sintéticamente que imitan oclusiones por transformación, asegurando una completación espacial y temporalmente consistente de las regiones faltantes. Para mitigar aún más las imprecisiones en los priores de profundidad monocular, introducimos una estrategia iterativa de ampliación de vistas y una función de pérdida de reconstrucción robusta. Los experimentos demuestran que nuestro método mejora efectivamente la reconstrucción y completación de escenas monoculares 4D.
English
Reconstructing 4D dynamic scenes from casually captured monocular videos is valuable but highly challenging, as each timestamp is observed from a single viewpoint. We introduce Vivid4D, a novel approach that enhances 4D monocular video synthesis by augmenting observation views - synthesizing multi-view videos from a monocular input. Unlike existing methods that either solely leverage geometric priors for supervision or use generative priors while overlooking geometry, we integrate both. This reformulates view augmentation as a video inpainting task, where observed views are warped into new viewpoints based on monocular depth priors. To achieve this, we train a video inpainting model on unposed web videos with synthetically generated masks that mimic warping occlusions, ensuring spatially and temporally consistent completion of missing regions. To further mitigate inaccuracies in monocular depth priors, we introduce an iterative view augmentation strategy and a robust reconstruction loss. Experiments demonstrate that our method effectively improves monocular 4D scene reconstruction and completion.
PDF102April 17, 2025