ChatPaper.aiChatPaper

WildRayZer : Synthèse de grandes vues auto-supervisée dans des environnements dynamiques

WildRayZer: Self-supervised Large View Synthesis in Dynamic Environments

January 15, 2026
papers.authors: Xuweiyi Chen, Wentao Zhou, Zezhou Cheng
cs.AI

papers.abstract

Nous présentons WildRayZer, un cadre auto-supervisé pour la synthèse de nouvelles vues (NVS) dans des environnements dynamiques où la caméra et les objets sont en mouvement. Le contenu dynamique rompt la cohérence multi-vues sur laquelle reposent les modèles NVS statiques, entraînant des effets de fantôme, une géométrie hallucinée et une estimation de pose instable. WildRayZer résout ce problème en effectuant un test d'analyse par synthèse : un moteur de rendu statique uniquement pour la caméra explique la structure rigide, et ses résidus révèlent les régions transitoires. À partir de ces résidus, nous construisons des masques de mouvement pseudo, distillons un estimateur de mouvement et l'utilisons pour masquer les tokens d'entrée et contrôler les gradients de perte, afin que la supervision se concentre sur la complétion de l'arrière-plan inter-vues. Pour permettre un entraînement et une évaluation à grande échelle, nous constituons Dynamic RealEstate10K (D-RE10K), un jeu de données réel de 15 000 séquences dynamiques capturées de manière informelle, et D-RE10K-iPhone, un benchmark apparié de vues transitoires et propres pour la NVS éparse consciente des transitoires. Les expériences montrent que WildRayZer surpasse constamment les méthodes de référence par optimisation et à passe avant, à la fois dans l'élimination des régions transitoires et dans la qualité NVS de l'image complète, avec une seule passe avant.
English
We present WildRayZer, a self-supervised framework for novel view synthesis (NVS) in dynamic environments where both the camera and objects move. Dynamic content breaks the multi-view consistency that static NVS models rely on, leading to ghosting, hallucinated geometry, and unstable pose estimation. WildRayZer addresses this by performing an analysis-by-synthesis test: a camera-only static renderer explains rigid structure, and its residuals reveal transient regions. From these residuals, we construct pseudo motion masks, distill a motion estimator, and use it to mask input tokens and gate loss gradients so supervision focuses on cross-view background completion. To enable large-scale training and evaluation, we curate Dynamic RealEstate10K (D-RE10K), a real-world dataset of 15K casually captured dynamic sequences, and D-RE10K-iPhone, a paired transient and clean benchmark for sparse-view transient-aware NVS. Experiments show that WildRayZer consistently outperforms optimization-based and feed-forward baselines in both transient-region removal and full-frame NVS quality with a single feed-forward pass.
PDF11January 17, 2026