LagerNVS: Latente Geometrie für vollständig neuronale Echtzeit-Neuansichtssynthese
LagerNVS: Latent Geometry for Fully Neural Real-time Novel View Synthesis
March 20, 2026
Autoren: Stanislaw Szymanowicz, Minghao Chen, Jianyuan Wang, Christian Rupprecht, Andrea Vedaldi
cs.AI
Zusammenfassung
Aktuelle Arbeiten haben gezeigt, dass neuronale Netze 3D-Aufgaben wie Novel View Synthesis (NVS) ohne explizite 3D-Rekonstruktion bewältigen können. Dennoch vertreten wir die Auffassung, dass starke 3D-induktive Verzerrungen im Design solcher Netze nach wie vor nützlich sind. Wir demonstrieren dies durch die Vorstellung von LagerNVS, einem Encoder-Decoder-Neuronalnetz für NVS, das auf „3D-bewussten“ latenten Merkmalen aufbaut. Der Encoder wird aus einem vortrainierten 3D-Rekonstruktionsnetz initialisiert, das unter expliziter 3D-Aufsicht trainiert wurde. Dies wird mit einem leichtgewichtigen Decoder kombiniert und end-to-end mit photometrischen Verlusten trainiert. LagerNVS erreicht state-of-the-art deterministische Feed-Forward-Novel View Synthesis (einschließlich 31,4 PSNR auf Re10k), mit und ohne bekannte Kameras, rendert in Echtzeit, generalisiert auf In-the-Wild-Daten und kann mit einem Diffusions-Decoder für generative Extrapolation kombiniert werden.
English
Recent work has shown that neural networks can perform 3D tasks such as Novel View Synthesis (NVS) without explicit 3D reconstruction. Even so, we argue that strong 3D inductive biases are still helpful in the design of such networks. We show this point by introducing LagerNVS, an encoder-decoder neural network for NVS that builds on `3D-aware' latent features. The encoder is initialized from a 3D reconstruction network pre-trained using explicit 3D supervision. This is paired with a lightweight decoder, and trained end-to-end with photometric losses. LagerNVS achieves state-of-the-art deterministic feed-forward Novel View Synthesis (including 31.4 PSNR on Re10k), with and without known cameras, renders in real time, generalizes to in-the-wild data, and can be paired with a diffusion decoder for generative extrapolation.