RayDer: Schaalbare Zelfsuperviserende Nieuwe-Aanzichtsynthese uit Echte-Wereldvideo

Samenvatting

Zelfgecontroleerde synthese van nieuwe aanzichten (NVS) blijft moeilijk op te schalen, ondanks de overvloed aan videodata, grotendeels vanwege de kwetsbaarheid van training op realistische video's en het moeilijk voorspelbare schalingsgedrag van multi-netwerksysteemontwerpen. We introduceren RayDer, een uniforme feed-forwardtransformator die cameraschatting, scènereconstructie en rendering samenvoegt in één enkele backbone, waardoor zelfgecontroleerde NVS een goed gesteld enkelmodel-schalingsprobleem wordt. Een minimale dynamische toestand, behandeld als een hinderfactor, absorbeert tijdsvariërende inhoud en maakt stabiele training op onbeperkte realistische video mogelijk. Belangrijk is dat RayDer de NVS van statische scènes als zijn doeltaak behoudt: dynamische inhoud wordt uitsluitend benut als schaalbare supervisie, niet gereconstrueerd zoals bij NVS van dynamische scènes (4D). Over meerdere modelgroottes en ordes van grootte in data vertoont RayDer een zuivere machtwetschalering met data en rekenkracht, en presteert het beter dan datamengsels van statische scènes. Op een groot aantal benchmarks behaalt RayDer sterke zero-shot open-set-prestaties die concurrerend zijn met state-of-the-art gesuperviseerde benaderingen. Projectpagina: https://compvis.github.io/rayder

English

Self-supervised novel view synthesis (NVS) remains challenging to scale, despite the abundance of video data, largely due to the brittleness of training on realistic videos and the hard-to-predict scaling behavior of multi-network system designs. We introduce RayDer, a unified, feed-forward transformer that consolidates camera estimation, scene reconstruction, and rendering into a single backbone, turning self-supervised NVS into a well-posed single-model scaling problem. A minimal dynamic state, treated as a nuisance factor, absorbs time-varying content and enables stable training on unconstrained real-world video. Importantly, RayDer keeps static-scene NVS as its target task: dynamic content is leveraged purely as scalable supervision, not reconstructed as in dynamic-scene (4D) NVS. Across multiple model sizes and orders of magnitude in data, RayDer exhibits clean power-law scaling with data and compute, and outperforms static-scene data mixtures. On a large number of benchmarks, RayDer achieves strong zero-shot open-set performance competitive with state-of-the-art supervised approaches. Project Page: https://compvis.github.io/rayder