WildRayZer: Selbstüberwachte Synthese großer Blickwinkel in dynamischen Umgebungen
WildRayZer: Self-supervised Large View Synthesis in Dynamic Environments
January 15, 2026
papers.authors: Xuweiyi Chen, Wentao Zhou, Zezhou Cheng
cs.AI
papers.abstract
Wir stellen WildRayZer vor, ein selbstüberwachtes Framework für die Synthese neuartiger Ansichten (Novel View Synthesis, NVS) in dynamischen Umgebungen, in denen sich sowohl die Kamera als auch Objekte bewegen. Dynamische Inhalte brechen die Mehrbildkonsistenz, auf die statische NVS-Modelle angewiesen sind, was zu Geisterbildern, halluzinierter Geometrie und instabiler Posenschätzung führt. WildRayZer adressiert dies durch einen Analyse-durch-Synthese-Test: Ein rein statischer Renderer, der nur die Kamerabewegung berücksichtigt, erklärt die starre Struktur, und seine Residuen offenbaren transiente Bereiche. Aus diesen Residuen konstruieren wir pseudo Motion Masks, destillieren einen Bewegungs-Schätzer und nutzen ihn, um Eingabe-Tokens zu maskieren und Verlustgradienten zu steuern, sodass sich die Überwachung auf die hintergrundbezogene Bildvervollständigung über verschiedene Ansichten konzentriert. Um Training und Evaluation im großen Maßstab zu ermöglichen, haben wir Dynamic RealEstate10K (D-RE10K) kuratiert, einen Real-World-Datensatz mit 15.000 lässig aufgenommenen dynamischen Sequenzen, sowie D-RE10K-iPhone, einen gepaarten Benchmark mit transienten und sauberen Daten für transiente-bewusste NVS mit spärlichen Ansichten. Experimente zeigen, dass WildRayZer optimierungsbasierte und direkte (Feed-Forward) Baseline-Methoden konsistent sowohl in der Entfernung transiente Bereiche als auch in der Vollbild-NVS-Qualität mit einem einzigen Feed-Forward-Durchlauf übertrifft.
English
We present WildRayZer, a self-supervised framework for novel view synthesis (NVS) in dynamic environments where both the camera and objects move. Dynamic content breaks the multi-view consistency that static NVS models rely on, leading to ghosting, hallucinated geometry, and unstable pose estimation. WildRayZer addresses this by performing an analysis-by-synthesis test: a camera-only static renderer explains rigid structure, and its residuals reveal transient regions. From these residuals, we construct pseudo motion masks, distill a motion estimator, and use it to mask input tokens and gate loss gradients so supervision focuses on cross-view background completion. To enable large-scale training and evaluation, we curate Dynamic RealEstate10K (D-RE10K), a real-world dataset of 15K casually captured dynamic sequences, and D-RE10K-iPhone, a paired transient and clean benchmark for sparse-view transient-aware NVS. Experiments show that WildRayZer consistently outperforms optimization-based and feed-forward baselines in both transient-region removal and full-frame NVS quality with a single feed-forward pass.