LVSM: Un Modello di Sintesi di Ampia Vista con un Minimo Pregiudizio Induttivo 3D

Abstract

Proponiamo il Modello di Sintesi di Ampia Vista (LVSM), un nuovo approccio basato su trasformatori per la sintesi di nuove viste scalabile e generalizzabile da input a vista sparuta. Introduciamo due architetture: (1) un LVSM codificatore-decodificatore, che codifica i token delle immagini di input in un numero fisso di token latenti 1D, funzionando come una rappresentazione della scena completamente appresa, e decodifica le immagini di nuove viste da questi; e (2) un LVSM solo decodificatore, che mappa direttamente le immagini di input in output di nuove viste, eliminando completamente le rappresentazioni intermedie della scena. Entrambi i modelli evitano i bias induttivi 3D utilizzati nei metodi precedenti - dalle rappresentazioni 3D (ad es. NeRF, 3DGS) ai design di rete (ad es. proiezioni epipolari, scansioni piane) - affrontando la sintesi di nuove viste con un approccio completamente basato sui dati. Mentre il modello codificatore-decodificatore offre un'inferezza più veloce grazie alla sua rappresentazione latente indipendente, il LVSM solo decodificatore raggiunge una qualità superiore, scalabilità e generalizzazione zero-shot, superando i metodi precedenti all'avanguardia di 1,5 a 3,5 dB PSNR. Valutazioni complete su più set di dati dimostrano che entrambe le varianti LVSM raggiungono una qualità all'avanguardia nella sintesi di nuove viste. In particolare, i nostri modelli superano tutti i metodi precedenti anche con risorse computazionali ridotte (1-2 GPU). Si prega di visitare il nostro sito web per ulteriori dettagli: https://haian-jin.github.io/projects/LVSM/ .

English

We propose the Large View Synthesis Model (LVSM), a novel transformer-based approach for scalable and generalizable novel view synthesis from sparse-view inputs. We introduce two architectures: (1) an encoder-decoder LVSM, which encodes input image tokens into a fixed number of 1D latent tokens, functioning as a fully learned scene representation, and decodes novel-view images from them; and (2) a decoder-only LVSM, which directly maps input images to novel-view outputs, completely eliminating intermediate scene representations. Both models bypass the 3D inductive biases used in previous methods -- from 3D representations (e.g., NeRF, 3DGS) to network designs (e.g., epipolar projections, plane sweeps) -- addressing novel view synthesis with a fully data-driven approach. While the encoder-decoder model offers faster inference due to its independent latent representation, the decoder-only LVSM achieves superior quality, scalability, and zero-shot generalization, outperforming previous state-of-the-art methods by 1.5 to 3.5 dB PSNR. Comprehensive evaluations across multiple datasets demonstrate that both LVSM variants achieve state-of-the-art novel view synthesis quality. Notably, our models surpass all previous methods even with reduced computational resources (1-2 GPUs). Please see our website for more details: https://haian-jin.github.io/projects/LVSM/ .

LVSM: Un Modello di Sintesi di Ampia Vista con un Minimo Pregiudizio Induttivo 3D

LVSM: A Large View Synthesis Model with Minimal 3D Inductive Bias

Abstract

Summary

Support

Support