RayDer: Skalierbare selbstüberwachte Neuansichtssynthese aus Echtwelt-Videomaterial

Zusammenfassung

Die selbstüberwachte Neuansichtsynthese (NVS) bleibt trotz der Fülle an Videodaten schwer skalierbar, hauptsächlich aufgrund der Anfälligkeit des Trainings mit realistischen Videos und des schwer vorhersagbaren Skalierungsverhaltens von Multi-Netzwerk-Systemdesigns. Wir stellen RayDer vor, einen einheitlichen, vorwärtsgerichteten Transformer, der Kamerenschätzung, Szenenrekonstruktion und Rendering in einem einzigen Grundgerüst vereint und die selbstüberwachte NVS in ein gut gestelltes Einzelmodell-Skalierungsproblem verwandelt. Ein minimaler dynamischer Zustand, der als Störfaktor behandelt wird, absorbiert zeitlich veränderliche Inhalte und ermöglicht stabiles Training auf uneingeschränkten realen Videos. Wichtig ist, dass RayDer die statische Szenen-NVS als seine Zielaufgabe beibehält: Dynamische Inhalte werden ausschließlich als skalierbare Überwachung genutzt, nicht wie bei der dynamischen Szenen-NVS (4D) rekonstruiert. Über mehrere Modellgrößen und Größenordnungen in den Daten hinweg zeigt RayDer ein sauberes Potenzgesetz-Skalieren mit Daten und Rechenleistung und übertrifft Datenmischungen statischer Szenen. Auf einer Vielzahl von Benchmarks erzielt RayDer eine starke Zero-Shot-Open-Set-Leistung, die mit aktuellen überwachten Ansätzen konkurrieren kann. Projektseite: https://compvis.github.io/rayder

English

Self-supervised novel view synthesis (NVS) remains challenging to scale, despite the abundance of video data, largely due to the brittleness of training on realistic videos and the hard-to-predict scaling behavior of multi-network system designs. We introduce RayDer, a unified, feed-forward transformer that consolidates camera estimation, scene reconstruction, and rendering into a single backbone, turning self-supervised NVS into a well-posed single-model scaling problem. A minimal dynamic state, treated as a nuisance factor, absorbs time-varying content and enables stable training on unconstrained real-world video. Importantly, RayDer keeps static-scene NVS as its target task: dynamic content is leveraged purely as scalable supervision, not reconstructed as in dynamic-scene (4D) NVS. Across multiple model sizes and orders of magnitude in data, RayDer exhibits clean power-law scaling with data and compute, and outperforms static-scene data mixtures. On a large number of benchmarks, RayDer achieves strong zero-shot open-set performance competitive with state-of-the-art supervised approaches. Project Page: https://compvis.github.io/rayder