RayDer: Síntesis de vistas novedosas auto-supervisada y escalable a partir de video del mundo real

Resumen

La síntesis de vistas novedosas autosupervisada (NVS) sigue siendo difícil de escalar, a pesar de la abundancia de datos de video, debido en gran medida a la fragilidad del entrenamiento con videos realistas y al comportamiento de escalado difícil de predecir en diseños de sistemas con múltiples redes. Presentamos RayDer, un transformador unificado y de avance directo que consolida la estimación de cámaras, la reconstrucción de escenas y el renderizado en una única arquitectura base, convirtiendo la NVS autosupervisada en un problema de escalado bien definido con un solo modelo. Un estado dinámico mínimo, tratado como un factor de interferencia, absorbe el contenido que varía en el tiempo y permite un entrenamiento estable sobre videos del mundo real sin restricciones. Es importante destacar que RayDer mantiene la NVS de escenas estáticas como su tarea objetivo: el contenido dinámico se aprovecha únicamente como supervisión escalable, no se reconstruye como en la NVS de escenas dinámicas (4D). A través de múltiples tamaños de modelo y órdenes de magnitud en datos, RayDer exhibe un escalado limpio por ley de potencias con respecto a los datos y la computación, y supera a las mezclas de datos de escenas estáticas. En una gran cantidad de puntos de referencia, RayDer logra un rendimiento zero-shot en conjuntos abiertos competitivo con enfoques supervisados de última generación. Página del proyecto: https://compvis.github.io/rayder

English

Self-supervised novel view synthesis (NVS) remains challenging to scale, despite the abundance of video data, largely due to the brittleness of training on realistic videos and the hard-to-predict scaling behavior of multi-network system designs. We introduce RayDer, a unified, feed-forward transformer that consolidates camera estimation, scene reconstruction, and rendering into a single backbone, turning self-supervised NVS into a well-posed single-model scaling problem. A minimal dynamic state, treated as a nuisance factor, absorbs time-varying content and enables stable training on unconstrained real-world video. Importantly, RayDer keeps static-scene NVS as its target task: dynamic content is leveraged purely as scalable supervision, not reconstructed as in dynamic-scene (4D) NVS. Across multiple model sizes and orders of magnitude in data, RayDer exhibits clean power-law scaling with data and compute, and outperforms static-scene data mixtures. On a large number of benchmarks, RayDer achieves strong zero-shot open-set performance competitive with state-of-the-art supervised approaches. Project Page: https://compvis.github.io/rayder