캐주얼 비디오의 고속 뷰 합성
Fast View Synthesis of Casual Videos
December 4, 2023
저자: Yao-Chih Lee, Zhoutong Zhang, Kevin Blackburn-Matzen, Simon Niklaus, Jianming Zhang, Jia-Bin Huang, Feng Liu
cs.AI
초록
실세계 비디오로부터의 새로운 시점 합성은 장면의 동적 변화와 시차 부족과 같은 문제로 인해 어려운 과제이다. 기존의 방법들은 암묵적 신경 방사장(neural radiance fields)을 사용하여 유망한 결과를 보여주었지만, 학습과 렌더링 속도가 느리다는 단점이 있다. 본 논문은 단안 비디오로부터 고품질의 새로운 시점을 효율적으로 합성하기 위해 명시적 비디오 표현을 재검토한다. 우리는 정적 및 동적 비디오 콘텐츠를 별도로 처리한다. 구체적으로, 시간적으로 일관된 새로운 비디오를 합성하기 위해 확장된 평면 기반 장면 표현을 사용하여 전역 정적 장면 모델을 구축한다. 우리의 평면 기반 장면 표현은 구면 조화 함수(spherical harmonics)와 변위 맵(displacement maps)을 추가하여 시점 의존적 효과를 포착하고 비평면 복잡 표면 기하를 모델링한다. 동적 콘텐츠는 효율성을 위해 프레임별 포인트 클라우드로 표현하기로 한다. 이러한 표현은 일관성 문제가 발생하기 쉽지만, 움직임으로 인해 미세한 시간적 불일치는 지각적으로 가려진다. 우리는 이러한 하이브리드 비디오 표현을 빠르게 추정하고 실시간으로 새로운 시점을 렌더링하는 방법을 개발한다. 실험 결과, 우리의 방법은 실세계 비디오로부터 최신 기술과 비슷한 품질의 새로운 시점을 렌더링할 수 있으며, 학습 속도는 100배 빠르고 실시간 렌더링이 가능함을 보여준다.
English
Novel view synthesis from an in-the-wild video is difficult due to challenges
like scene dynamics and lack of parallax. While existing methods have shown
promising results with implicit neural radiance fields, they are slow to train
and render. This paper revisits explicit video representations to synthesize
high-quality novel views from a monocular video efficiently. We treat static
and dynamic video content separately. Specifically, we build a global static
scene model using an extended plane-based scene representation to synthesize
temporally coherent novel video. Our plane-based scene representation is
augmented with spherical harmonics and displacement maps to capture
view-dependent effects and model non-planar complex surface geometry. We opt to
represent the dynamic content as per-frame point clouds for efficiency. While
such representations are inconsistency-prone, minor temporal inconsistencies
are perceptually masked due to motion. We develop a method to quickly estimate
such a hybrid video representation and render novel views in real time. Our
experiments show that our method can render high-quality novel views from an
in-the-wild video with comparable quality to state-of-the-art methods while
being 100x faster in training and enabling real-time rendering.