WildRayZer: Zelf-gesuperviseerde Synthese van Grote Beeldhoeken in Dynamische Omgevingen
WildRayZer: Self-supervised Large View Synthesis in Dynamic Environments
January 15, 2026
Auteurs: Xuweiyi Chen, Wentao Zhou, Zezhou Cheng
cs.AI
Samenvatting
Wij presenteren WildRayZer, een zelf-gesuperviseerd raamwerk voor novel view synthesis (NVS) in dynamische omgevingen waar zowel de camera als objecten bewegen. Dynamische inhoud verbreekt de multi-view consistentie waarop statische NVS-modellen vertrouwen, wat leidt tot ghosting, gehallucineerde geometrie en onstabiele pose-schatting. WildRayZer lost dit op door een analyse-door-synthese test uit te voeren: een statische renderer die alleen de camera beweegt, verklaart de rigide structuur, en de residuen daarvan onthullen transiënte regio's. Uit deze residuen construeren we pseudo-bewegingsmaskers, destilleren we een bewegingsschatter en gebruiken we deze om invoertokens te maskeren en verliesgradiënten te sturen, zodat supervisie zich richt op het aanvullen van de achtergrond over verschillende viewpoints heen. Om grootschalige training en evaluatie mogelijk te maken, stellen we Dynamic RealEstate10K (D-RE10K) samen, een real-world dataset met 15K informeel vastgelegde dynamische sequenties, en D-RE10K-iPhone, een gekoppelde benchmark met transiënte en schone beelden voor sparse-view, transiënt-bewuste NVS. Experimenten tonen aan dat WildRayZer met een enkele feed-forward pass consistent beter presteert dan op optimalisatie gebaseerde en feed-forward baseline-methoden, zowel in het verwijderen van transiënte regio's als in de kwaliteit van full-frame NVS.
English
We present WildRayZer, a self-supervised framework for novel view synthesis (NVS) in dynamic environments where both the camera and objects move. Dynamic content breaks the multi-view consistency that static NVS models rely on, leading to ghosting, hallucinated geometry, and unstable pose estimation. WildRayZer addresses this by performing an analysis-by-synthesis test: a camera-only static renderer explains rigid structure, and its residuals reveal transient regions. From these residuals, we construct pseudo motion masks, distill a motion estimator, and use it to mask input tokens and gate loss gradients so supervision focuses on cross-view background completion. To enable large-scale training and evaluation, we curate Dynamic RealEstate10K (D-RE10K), a real-world dataset of 15K casually captured dynamic sequences, and D-RE10K-iPhone, a paired transient and clean benchmark for sparse-view transient-aware NVS. Experiments show that WildRayZer consistently outperforms optimization-based and feed-forward baselines in both transient-region removal and full-frame NVS quality with a single feed-forward pass.