RayDer: Síntese de Novas Vistas Auto-supervisionada e Escalável a partir de Vídeos do Mundo Real

Resumo

A síntese de novas vistas (NVS) auto-supervisionada continua sendo desafiadora de escalar, apesar da abundância de dados de vídeo, em grande parte devido à fragilidade do treinamento em vídeos realistas e ao comportamento de escalonamento difícil de prever de sistemas com múltiplas redes. Apresentamos o RayDer, um transformer feed-forward unificado que consolida estimativa de câmera, reconstrução de cena e renderização em um único backbone, transformando a NVS auto-supervisionada em um problema de escalonamento de modelo único bem-posto. Um estado dinâmico mínimo, tratado como um fator incômodo, absorve conteúdo variável no tempo e permite treinamento estável em vídeos reais não restritos. Importante, o RayDer mantém a NVS de cena estática como sua tarefa alvo: o conteúdo dinâmico é aproveitado puramente como supervisão escalável, não reconstruído como na NVS de cena dinâmica (4D). Em múltiplos tamanhos de modelo e ordens de grandeza em dados, o RayDer exibe um escalonamento por lei de potência claro com dados e computação, e supera misturas de dados de cena estática. Em um grande número de benchmarks, o RayDer alcança um desempenho zero-shot em conjunto aberto forte, competitivo com abordagens supervisionadas de última geração. Página do Projeto: https://compvis.github.io/rayder

English

Self-supervised novel view synthesis (NVS) remains challenging to scale, despite the abundance of video data, largely due to the brittleness of training on realistic videos and the hard-to-predict scaling behavior of multi-network system designs. We introduce RayDer, a unified, feed-forward transformer that consolidates camera estimation, scene reconstruction, and rendering into a single backbone, turning self-supervised NVS into a well-posed single-model scaling problem. A minimal dynamic state, treated as a nuisance factor, absorbs time-varying content and enables stable training on unconstrained real-world video. Importantly, RayDer keeps static-scene NVS as its target task: dynamic content is leveraged purely as scalable supervision, not reconstructed as in dynamic-scene (4D) NVS. Across multiple model sizes and orders of magnitude in data, RayDer exhibits clean power-law scaling with data and compute, and outperforms static-scene data mixtures. On a large number of benchmarks, RayDer achieves strong zero-shot open-set performance competitive with state-of-the-art supervised approaches. Project Page: https://compvis.github.io/rayder