RayDer: Масштабируемый самоконтролируемый синтез новых видов из видеозаписей реального мира

Аннотация

Самообучаемый синтез новых видов (NVS) по-прежнему сложно масштабировать, несмотря на обилие видеоданных, в значительной степени из-за нестабильности обучения на реалистичных видео и трудно предсказуемого поведения масштабирования многокомпонентных систем. Мы представляем RayDer — унифицированный трансформер прямого распространения, который объединяет оценку камеры, реконструкцию сцены и рендеринг в одном бэкбоне, превращая самообучаемый NVS в корректно поставленную задачу масштабирования одной модели. Минимальное динамическое состояние, рассматриваемое как мешающий фактор, поглощает изменяющееся во времени содержимое и обеспечивает стабильное обучение на неограниченных реальных видео. Важно отметить, что RayDer сохраняет NVS статической сцены в качестве целевой задачи: динамическое содержимое используется исключительно как масштабируемое обучение, а не восстанавливается, как в NVS динамической сцены (4D). При различных размерах модели и порядках величины данных RayDer демонстрирует четкое степенное масштабирование с данными и вычислительными затратами и превосходит смеси данных статических сцен. На большом количестве эталонов RayDer достигает высокой производительности в режиме zero-shot для открытого множества, конкурируя с передовыми подходами с учителем. Страница проекта: https://compvis.github.io/rayder

English

Self-supervised novel view synthesis (NVS) remains challenging to scale, despite the abundance of video data, largely due to the brittleness of training on realistic videos and the hard-to-predict scaling behavior of multi-network system designs. We introduce RayDer, a unified, feed-forward transformer that consolidates camera estimation, scene reconstruction, and rendering into a single backbone, turning self-supervised NVS into a well-posed single-model scaling problem. A minimal dynamic state, treated as a nuisance factor, absorbs time-varying content and enables stable training on unconstrained real-world video. Importantly, RayDer keeps static-scene NVS as its target task: dynamic content is leveraged purely as scalable supervision, not reconstructed as in dynamic-scene (4D) NVS. Across multiple model sizes and orders of magnitude in data, RayDer exhibits clean power-law scaling with data and compute, and outperforms static-scene data mixtures. On a large number of benchmarks, RayDer achieves strong zero-shot open-set performance competitive with state-of-the-art supervised approaches. Project Page: https://compvis.github.io/rayder