ChatPaper.aiChatPaper

LagerNVS : Géométrie latente pour la synthèse neuronale temps réel de vues nouvelles

LagerNVS: Latent Geometry for Fully Neural Real-time Novel View Synthesis

March 20, 2026
Auteurs: Stanislaw Szymanowicz, Minghao Chen, Jianyuan Wang, Christian Rupprecht, Andrea Vedaldi
cs.AI

Résumé

Des travaux récents ont montré que les réseaux de neurones peuvent accomplir des tâches 3D telles que la Synthèse de Nouvelles Vues (NVS) sans reconstruction 3D explicite. Malgré cela, nous soutenons que de forts biais inductifs 3D restent bénéfiques dans la conception de tels réseaux. Nous démontrons ce point en présentant LagerNVS, un réseau de neurones encodeur-décodeur pour la NVS qui s'appuie sur des caractéristiques latentes « conscientes de la 3D ». L'encodeur est initialisé à partir d'un réseau de reconstruction 3D pré-entraîné en utilisant une supervision 3D explicite. Celui-ci est associé à un décodeur léger, et l'ensemble est entraîné de bout en bout avec des pertes photométriques. LagerNVS atteint des performances de pointe en Synthèse de Nouvelles Vues déterministe à propagation avant (incluant un PSNR de 31.4 sur Re10k), avec ou sans caméras connues, effectue le rendu en temps réel, généralise à des données en conditions réelles, et peut être couplé à un décodeur à diffusion pour une extrapolation générative.
English
Recent work has shown that neural networks can perform 3D tasks such as Novel View Synthesis (NVS) without explicit 3D reconstruction. Even so, we argue that strong 3D inductive biases are still helpful in the design of such networks. We show this point by introducing LagerNVS, an encoder-decoder neural network for NVS that builds on `3D-aware' latent features. The encoder is initialized from a 3D reconstruction network pre-trained using explicit 3D supervision. This is paired with a lightweight decoder, and trained end-to-end with photometric losses. LagerNVS achieves state-of-the-art deterministic feed-forward Novel View Synthesis (including 31.4 PSNR on Re10k), with and without known cameras, renders in real time, generalizes to in-the-wild data, and can be paired with a diffusion decoder for generative extrapolation.
PDF71March 27, 2026