ChatPaper.aiChatPaper

Vivid4D: 비디오 인페인팅을 통한 단안 비디오 기반 4D 재구성 개선

Vivid4D: Improving 4D Reconstruction from Monocular Video by Video Inpainting

April 15, 2025
저자: Jiaxin Huang, Sheng Miao, BangBnag Yang, Yuewen Ma, Yiyi Liao
cs.AI

초록

단일 카메라로 캡처된 비디오에서 4D 동적 장면을 재구성하는 것은 매우 유용하지만, 각 타임스탬프가 단일 시점에서만 관찰되기 때문에 매우 어려운 과제입니다. 우리는 단일 카메라 입력에서 다중 시점 비디오를 합성함으로써 4D 단일 카메라 비디오 합성을 향상시키는 새로운 접근법인 Vivid4D를 소개합니다. 기존 방법들이 기하학적 사전 정보만을 활용하거나 기하학을 간과한 채 생성적 사전 정보를 사용하는 것과 달리, 우리는 두 가지를 통합합니다. 이를 통해 시점 증강을 비디오 인페인팅 작업으로 재구성하며, 단일 카메라 깊이 사전 정보를 기반으로 관찰된 시점을 새로운 시점으로 변형합니다. 이를 위해, 우리는 웹 비디오에 합성적으로 생성된 마스크를 적용하여 변형으로 인한 폐색을 모방하고, 누락된 영역의 공간적 및 시간적 일관성을 보장하는 비디오 인페인팅 모델을 학습합니다. 또한, 단일 카메라 깊이 사전 정보의 부정확성을 더욱 완화하기 위해 반복적 시점 증강 전략과 강건한 재구성 손실을 도입합니다. 실험 결과, 우리의 방법이 단일 카메라 4D 장면 재구성 및 완성을 효과적으로 개선함을 보여줍니다.
English
Reconstructing 4D dynamic scenes from casually captured monocular videos is valuable but highly challenging, as each timestamp is observed from a single viewpoint. We introduce Vivid4D, a novel approach that enhances 4D monocular video synthesis by augmenting observation views - synthesizing multi-view videos from a monocular input. Unlike existing methods that either solely leverage geometric priors for supervision or use generative priors while overlooking geometry, we integrate both. This reformulates view augmentation as a video inpainting task, where observed views are warped into new viewpoints based on monocular depth priors. To achieve this, we train a video inpainting model on unposed web videos with synthetically generated masks that mimic warping occlusions, ensuring spatially and temporally consistent completion of missing regions. To further mitigate inaccuracies in monocular depth priors, we introduce an iterative view augmentation strategy and a robust reconstruction loss. Experiments demonstrate that our method effectively improves monocular 4D scene reconstruction and completion.

Summary

AI-Generated Summary

PDF102April 17, 2025