RayDer : Synthèse de nouvelles vues auto-supervisée et évolutive à partir de vidéos du monde réel

Résumé

La synthèse de nouvelle vue (NVS) auto-supervisée reste difficile à passer à l'échelle, malgré l'abondance de données vidéo, en grande partie à cause de la fragilité de l'entraînement sur des vidéos réalistes et du comportement difficile à prédire du passage à l'échelle des systèmes multi-réseaux. Nous présentons RayDer, un transformateur feed-forward unifié qui consolide l'estimation de caméra, la reconstruction de scène et le rendu en un seul tronc commun, transformant la NVS auto-supervisée en un problème de passage à l'échelle bien posé à modèle unique. Un état dynamique minimal, traité comme un facteur de nuisance, absorbe le contenu variant dans le temps et permet un entraînement stable sur des vidéos réelles non contraintes. Fait important, RayDer conserve la NVS de scène statique comme tâche cible : le contenu dynamique est utilisé uniquement comme supervision évolutive, non reconstruit comme dans la NVS de scène dynamique (4D). À travers plusieurs tailles de modèle et ordres de grandeur de données, RayDer présente une mise à l'échelle de loi de puissance propre avec les données et le calcul, et surpasse les mélanges de données de scène statique. Sur un grand nombre de références, RayDer atteint une performance en open-set zero-shot compétitive avec les approches supervisées de pointe. Page du projet : https://compvis.github.io/rayder

English

Self-supervised novel view synthesis (NVS) remains challenging to scale, despite the abundance of video data, largely due to the brittleness of training on realistic videos and the hard-to-predict scaling behavior of multi-network system designs. We introduce RayDer, a unified, feed-forward transformer that consolidates camera estimation, scene reconstruction, and rendering into a single backbone, turning self-supervised NVS into a well-posed single-model scaling problem. A minimal dynamic state, treated as a nuisance factor, absorbs time-varying content and enables stable training on unconstrained real-world video. Importantly, RayDer keeps static-scene NVS as its target task: dynamic content is leveraged purely as scalable supervision, not reconstructed as in dynamic-scene (4D) NVS. Across multiple model sizes and orders of magnitude in data, RayDer exhibits clean power-law scaling with data and compute, and outperforms static-scene data mixtures. On a large number of benchmarks, RayDer achieves strong zero-shot open-set performance competitive with state-of-the-art supervised approaches. Project Page: https://compvis.github.io/rayder