ChatPaper.aiChatPaper

RayDer: Skalierbare selbstüberwachte Neuansichtssynthese aus Echtwelt-Videomaterial

RayDer: Scalable Self-Supervised Novel View Synthesis from Real-World Video

May 29, 2026
Autoren: Ulrich Prestel, Stefan Andreas Baumann, Nick Stracke, Björn Ommer
cs.AI

Zusammenfassung

Die selbstüberwachte Neuansichtsynthese (NVS) bleibt trotz der Fülle an Videodaten schwer skalierbar, hauptsächlich aufgrund der Anfälligkeit des Trainings mit realistischen Videos und des schwer vorhersagbaren Skalierungsverhaltens von Multi-Netzwerk-Systemdesigns. Wir stellen RayDer vor, einen einheitlichen, vorwärtsgerichteten Transformer, der Kamerenschätzung, Szenenrekonstruktion und Rendering in einem einzigen Grundgerüst vereint und die selbstüberwachte NVS in ein gut gestelltes Einzelmodell-Skalierungsproblem verwandelt. Ein minimaler dynamischer Zustand, der als Störfaktor behandelt wird, absorbiert zeitlich veränderliche Inhalte und ermöglicht stabiles Training auf uneingeschränkten realen Videos. Wichtig ist, dass RayDer die statische Szenen-NVS als seine Zielaufgabe beibehält: Dynamische Inhalte werden ausschließlich als skalierbare Überwachung genutzt, nicht wie bei der dynamischen Szenen-NVS (4D) rekonstruiert. Über mehrere Modellgrößen und Größenordnungen in den Daten hinweg zeigt RayDer ein sauberes Potenzgesetz-Skalieren mit Daten und Rechenleistung und übertrifft Datenmischungen statischer Szenen. Auf einer Vielzahl von Benchmarks erzielt RayDer eine starke Zero-Shot-Open-Set-Leistung, die mit aktuellen überwachten Ansätzen konkurrieren kann. Projektseite: https://compvis.github.io/rayder
English
Self-supervised novel view synthesis (NVS) remains challenging to scale, despite the abundance of video data, largely due to the brittleness of training on realistic videos and the hard-to-predict scaling behavior of multi-network system designs. We introduce RayDer, a unified, feed-forward transformer that consolidates camera estimation, scene reconstruction, and rendering into a single backbone, turning self-supervised NVS into a well-posed single-model scaling problem. A minimal dynamic state, treated as a nuisance factor, absorbs time-varying content and enables stable training on unconstrained real-world video. Importantly, RayDer keeps static-scene NVS as its target task: dynamic content is leveraged purely as scalable supervision, not reconstructed as in dynamic-scene (4D) NVS. Across multiple model sizes and orders of magnitude in data, RayDer exhibits clean power-law scaling with data and compute, and outperforms static-scene data mixtures. On a large number of benchmarks, RayDer achieves strong zero-shot open-set performance competitive with state-of-the-art supervised approaches. Project Page: https://compvis.github.io/rayder