LagerNVS: Latente Geometrie voor Volledig Neurale Real-time Nieuwe Beeldsynthese
LagerNVS: Latent Geometry for Fully Neural Real-time Novel View Synthesis
March 20, 2026
Auteurs: Stanislaw Szymanowicz, Minghao Chen, Jianyuan Wang, Christian Rupprecht, Andrea Vedaldi
cs.AI
Samenvatting
Recent onderzoek heeft aangetoond dat neurale netwerken 3D-taken zoals Novel View Synthesis (NVS) kunnen uitvoeren zonder expliciete 3D-reconstructie. Desalniettemin stellen wij dat sterke 3D-inductieve biases nog steeds nuttig zijn bij het ontwerp van dergelijke netwerken. Wij tonen dit aan door LagerNVS te introduceren, een encoder-decoder neuraal netwerk voor NVS dat voortbouwt op '3D-bewuste' latente features. De encoder wordt geïnitialiseerd vanuit een 3D-reconstructienetwerk dat vooraf is getraind met expliciete 3D-supervisie. Dit wordt gecombineerd met een lichtgewicht decoder, en end-to-end getraind met fotometrische verliesfuncties. LagerNVS behaalt state-of-the-art deterministische feed-forward Novel View Synthesis (inclusief 31.4 PSNR op Re10k), met en zonder bekende camera's, rendert in realtime, generaliseert naar in-the-wild data, en kan worden gecombineerd met een diffusion decoder voor generatieve extrapolatie.
English
Recent work has shown that neural networks can perform 3D tasks such as Novel View Synthesis (NVS) without explicit 3D reconstruction. Even so, we argue that strong 3D inductive biases are still helpful in the design of such networks. We show this point by introducing LagerNVS, an encoder-decoder neural network for NVS that builds on `3D-aware' latent features. The encoder is initialized from a 3D reconstruction network pre-trained using explicit 3D supervision. This is paired with a lightweight decoder, and trained end-to-end with photometric losses. LagerNVS achieves state-of-the-art deterministic feed-forward Novel View Synthesis (including 31.4 PSNR on Re10k), with and without known cameras, renders in real time, generalizes to in-the-wild data, and can be paired with a diffusion decoder for generative extrapolation.