LagerNVS: Geometría Latente para la Síntesis Neuronal en Tiempo Real de Nuevas Vistas
LagerNVS: Latent Geometry for Fully Neural Real-time Novel View Synthesis
March 20, 2026
Autores: Stanislaw Szymanowicz, Minghao Chen, Jianyuan Wang, Christian Rupprecht, Andrea Vedaldi
cs.AI
Resumen
Trabajos recientes han demostrado que las redes neuronales pueden realizar tareas 3D como la Síntesis de Nuevas Vistas (NVS) sin una reconstrucción 3D explícita. Aun así, sostenemos que los fuertes sesgos inductivos 3D siguen siendo útiles en el diseño de dichas redes. Demostramos este punto presentando LagerNVS, una red neuronal codificador-decodificador para NVS que se basa en características latentes 'conscientes del 3D'. El codificador se inicializa a partir de una red de reconstrucción 3D preentrenada usando supervisión 3D explícita. Esto se combina con un decodificador ligero y se entrena de extremo a extremo con pérdidas fotométricas. LagerNVS logra un estado del arte en Síntesis de Nuevas Vistas determinista de avance rápido (incluyendo 31.4 PSNR en Re10k), con y sin cámaras conocidas, renderiza en tiempo real, generaliza a datos del mundo real y puede combinarse con un decodificador de difusión para extrapolación generativa.
English
Recent work has shown that neural networks can perform 3D tasks such as Novel View Synthesis (NVS) without explicit 3D reconstruction. Even so, we argue that strong 3D inductive biases are still helpful in the design of such networks. We show this point by introducing LagerNVS, an encoder-decoder neural network for NVS that builds on `3D-aware' latent features. The encoder is initialized from a 3D reconstruction network pre-trained using explicit 3D supervision. This is paired with a lightweight decoder, and trained end-to-end with photometric losses. LagerNVS achieves state-of-the-art deterministic feed-forward Novel View Synthesis (including 31.4 PSNR on Re10k), with and without known cameras, renders in real time, generalizes to in-the-wild data, and can be paired with a diffusion decoder for generative extrapolation.