ChatPaper.aiChatPaper

WildRayZer: 동적 환경에서의 자기 지도 대규모 뷰 합성

WildRayZer: Self-supervised Large View Synthesis in Dynamic Environments

January 15, 2026
저자: Xuweiyi Chen, Wentao Zhou, Zezhou Cheng
cs.AI

초록

우리는 카메라와 객체가 모두 움직이는 동적 환경에서의 새로운 시점 합성(NVS)을 위한 자기 지도 학습 프레임워크인 WildRayZer를 제안한다. 동적 콘텐츠는 정적 NVS 모델이 의존하는 다중 시점 일관성을 깨뜨려 고스팅, 허구적 형상, 불안정한 포즈 추정을 초래한다. WildRayZer는 분석에 의한 합성 테스트를 수행하여 이 문제를 해결한다: 카메라만 이동하는 정적 렌더러가 강체 구조를 설명하고, 그 잔차는 일시적 영역을 드러낸다. 이러한 잔차로부터 우리는 유사 동작 마스크를 구성하고, 동작 추정기를 추출하며, 이를 사용해 입력 토큰을 마스킹하고 손실 기울기에 게이트를 적용하여 감독이 교차 시점 배경 완성에 집중하도록 한다. 대규모 학습과 평가를 가능하게 하기 위해, 우리는 실제로 캡처한 15,000개의 캐주얼 동적 시퀀스로 구성된 실세계 데이터셋인 Dynamic RealEstate10K(D-RE10K)과 희소 시점 일시적 인식 NVS를 위한 짝을 이룬 일시적/청정 벤치마크 D-RE10K-iPhone을 구축했다. 실험 결과, WildRayZer는 단일 순전파 패스로 일시적 영역 제거 및 전체 프레임 NVS 품질 모두에서 최적화 기반 및 순전파 기준 모델을 꾸준히 능가하는 것으로 나타났다.
English
We present WildRayZer, a self-supervised framework for novel view synthesis (NVS) in dynamic environments where both the camera and objects move. Dynamic content breaks the multi-view consistency that static NVS models rely on, leading to ghosting, hallucinated geometry, and unstable pose estimation. WildRayZer addresses this by performing an analysis-by-synthesis test: a camera-only static renderer explains rigid structure, and its residuals reveal transient regions. From these residuals, we construct pseudo motion masks, distill a motion estimator, and use it to mask input tokens and gate loss gradients so supervision focuses on cross-view background completion. To enable large-scale training and evaluation, we curate Dynamic RealEstate10K (D-RE10K), a real-world dataset of 15K casually captured dynamic sequences, and D-RE10K-iPhone, a paired transient and clean benchmark for sparse-view transient-aware NVS. Experiments show that WildRayZer consistently outperforms optimization-based and feed-forward baselines in both transient-region removal and full-frame NVS quality with a single feed-forward pass.
PDF11January 17, 2026