ChatPaper.aiChatPaper

WildRayZer: Síntesis Autosupervisada de Grandes Vistas en Entornos Dinámicos

WildRayZer: Self-supervised Large View Synthesis in Dynamic Environments

January 15, 2026
Autores: Xuweiyi Chen, Wentao Zhou, Zezhou Cheng
cs.AI

Resumen

Presentamos WildRayZer, un marco auto-supervisado para la síntesis de nuevas vistas (NVS) en entornos dinámicos donde tanto la cámara como los objetos se mueven. El contenido dinámico rompe la consistencia multi-vista en la que se basan los modelos NVS estáticos, lo que genera efectos de fantasmas, geometría alucinada y estimación de pose inestable. WildRayZer aborda este problema realizando una prueba de análisis por síntesis: un renderizador estático que solo considera la cámara explica la estructura rígida, y sus residuos revelan las regiones transitorias. A partir de estos residuos, construimos máscaras de movimiento pseudo, destilamos un estimador de movimiento y lo utilizamos para enmascarar *tokens* de entrada y regular los gradientes de la pérdida, de modo que la supervisión se centre en la completación del fondo coherente entre vistas. Para permitir el entrenamiento y evaluación a gran escala, hemos creado Dynamic RealEstate10K (D-RE10K), un conjunto de datos del mundo real con 15K secuencias dinámicas capturadas de forma casual, y D-RE10K-iPhone, un *benchmark* emparejado de vistas transitorias y limpias para NVS con vistas escasas y conciencia de transitorios. Los experimentos muestran que WildRayZer supera consistentemente a los métodos basados en optimización y a los *baselines* de propagación directa, tanto en la eliminación de regiones transitorias como en la calidad NVS de fotograma completo, con una única pasada de propagación directa.
English
We present WildRayZer, a self-supervised framework for novel view synthesis (NVS) in dynamic environments where both the camera and objects move. Dynamic content breaks the multi-view consistency that static NVS models rely on, leading to ghosting, hallucinated geometry, and unstable pose estimation. WildRayZer addresses this by performing an analysis-by-synthesis test: a camera-only static renderer explains rigid structure, and its residuals reveal transient regions. From these residuals, we construct pseudo motion masks, distill a motion estimator, and use it to mask input tokens and gate loss gradients so supervision focuses on cross-view background completion. To enable large-scale training and evaluation, we curate Dynamic RealEstate10K (D-RE10K), a real-world dataset of 15K casually captured dynamic sequences, and D-RE10K-iPhone, a paired transient and clean benchmark for sparse-view transient-aware NVS. Experiments show that WildRayZer consistently outperforms optimization-based and feed-forward baselines in both transient-region removal and full-frame NVS quality with a single feed-forward pass.
PDF11January 17, 2026