WildRayZer: Síntese Autossupervisionada de Grandes Ângulos de Visão em Ambientes Dinâmicos
WildRayZer: Self-supervised Large View Synthesis in Dynamic Environments
January 15, 2026
Autores: Xuweiyi Chen, Wentao Zhou, Zezhou Cheng
cs.AI
Resumo
Apresentamos o WildRayZer, uma estrutura auto-supervisionada para síntese de novas vistas (NVS) em ambientes dinâmicos onde tanto a câmara como os objetos se movem. O conteúdo dinâmico quebra a consistência multi-vista da qual os modelos estáticos de NVS dependem, levando a efeitos de "ghosting", geometria alucinada e estimativa de pose instável. O WildRayZer aborda este problema realizando um teste de análise-por-síntese: um renderizador estático apenas para a câmara explica a estrutura rígida, e os seus resíduos revelam regiões transitórias. A partir destes resíduos, construímos máscaras de movimento pseudo, destilamos um estimador de movimento e usamo-lo para mascarar *tokens* de entrada e condicionar gradientes de perda, de modo que a supervisão se concentre na conclusão de fundo entre vistas. Para permitir treino e avaliação em larga escala, criámos o Dynamic RealEstate10K (D-RE10K), um conjunto de dados do mundo real com 15K sequências dinâmicas capturadas casualmente, e o D-RE10K-iPhone, um *benchmark* emparelhado de dados transitórios e limpos para NVS esparsa com consciência de transitórios. Experiências mostram que o WildRayZer supera consistentemente os métodos baseados em otimização e os *baselines* de propagação direta, tanto na remoção de regiões transitórias como na qualidade de NVS de fotograma completo, com uma única passagem de propagação direta.
English
We present WildRayZer, a self-supervised framework for novel view synthesis (NVS) in dynamic environments where both the camera and objects move. Dynamic content breaks the multi-view consistency that static NVS models rely on, leading to ghosting, hallucinated geometry, and unstable pose estimation. WildRayZer addresses this by performing an analysis-by-synthesis test: a camera-only static renderer explains rigid structure, and its residuals reveal transient regions. From these residuals, we construct pseudo motion masks, distill a motion estimator, and use it to mask input tokens and gate loss gradients so supervision focuses on cross-view background completion. To enable large-scale training and evaluation, we curate Dynamic RealEstate10K (D-RE10K), a real-world dataset of 15K casually captured dynamic sequences, and D-RE10K-iPhone, a paired transient and clean benchmark for sparse-view transient-aware NVS. Experiments show that WildRayZer consistently outperforms optimization-based and feed-forward baselines in both transient-region removal and full-frame NVS quality with a single feed-forward pass.