LagerNVS: Geometria Latente per la Sintesi Neurale in Tempo Reale di Nuove Visuali
LagerNVS: Latent Geometry for Fully Neural Real-time Novel View Synthesis
March 20, 2026
Autori: Stanislaw Szymanowicz, Minghao Chen, Jianyuan Wang, Christian Rupprecht, Andrea Vedaldi
cs.AI
Abstract
Recenti studi hanno dimostrato che le reti neurali possono svolgere compiti 3D come la Sintesi di Nuove Viste (NVS) senza una ricostruzione 3D esplicita. Tuttavia, sosteniamo che forti *induttive bias* 3D rimangono utili nella progettazione di tali reti. Dimostriamo questo punto introducendo LagerNVS, una rete neurale di tipo encoder-decoder per NVS che si basa su feature latenti "3D-aware". L'encoder viene inizializzato a partire da una rete di ricostruzione 3D pre-addestrata utilizzando una supervisione 3D esplicita. Questo è abbinato a un decoder leggero, e l'intero sistema viene addestrato end-to-end con loss fotometriche. LagerNVS raggiunge risultati all'avanguardia nella Sintesi di Nuove Viste deterministica feed-forward (incluso un PSNR di 31.4 su Re10k), con e senza camere note, renderizza in tempo reale, generalizza su dati in-the-wild e può essere abbinato a un decoder di tipo diffusion per l'estrapolazione generativa.
English
Recent work has shown that neural networks can perform 3D tasks such as Novel View Synthesis (NVS) without explicit 3D reconstruction. Even so, we argue that strong 3D inductive biases are still helpful in the design of such networks. We show this point by introducing LagerNVS, an encoder-decoder neural network for NVS that builds on `3D-aware' latent features. The encoder is initialized from a 3D reconstruction network pre-trained using explicit 3D supervision. This is paired with a lightweight decoder, and trained end-to-end with photometric losses. LagerNVS achieves state-of-the-art deterministic feed-forward Novel View Synthesis (including 31.4 PSNR on Re10k), with and without known cameras, renders in real time, generalizes to in-the-wild data, and can be paired with a diffusion decoder for generative extrapolation.