LVSM: Un Modello di Sintesi di Ampia Vista con un Minimo Pregiudizio Induttivo 3D
LVSM: A Large View Synthesis Model with Minimal 3D Inductive Bias
October 22, 2024
Autori: Haian Jin, Hanwen Jiang, Hao Tan, Kai Zhang, Sai Bi, Tianyuan Zhang, Fujun Luan, Noah Snavely, Zexiang Xu
cs.AI
Abstract
Proponiamo il Modello di Sintesi di Ampia Vista (LVSM), un nuovo approccio basato su trasformatori per la sintesi di nuove viste scalabile e generalizzabile da input a vista sparuta. Introduciamo due architetture: (1) un LVSM codificatore-decodificatore, che codifica i token delle immagini di input in un numero fisso di token latenti 1D, funzionando come una rappresentazione della scena completamente appresa, e decodifica le immagini di nuove viste da questi; e (2) un LVSM solo decodificatore, che mappa direttamente le immagini di input in output di nuove viste, eliminando completamente le rappresentazioni intermedie della scena. Entrambi i modelli evitano i bias induttivi 3D utilizzati nei metodi precedenti - dalle rappresentazioni 3D (ad es. NeRF, 3DGS) ai design di rete (ad es. proiezioni epipolari, scansioni piane) - affrontando la sintesi di nuove viste con un approccio completamente basato sui dati. Mentre il modello codificatore-decodificatore offre un'inferezza più veloce grazie alla sua rappresentazione latente indipendente, il LVSM solo decodificatore raggiunge una qualità superiore, scalabilità e generalizzazione zero-shot, superando i metodi precedenti all'avanguardia di 1,5 a 3,5 dB PSNR. Valutazioni complete su più set di dati dimostrano che entrambe le varianti LVSM raggiungono una qualità all'avanguardia nella sintesi di nuove viste. In particolare, i nostri modelli superano tutti i metodi precedenti anche con risorse computazionali ridotte (1-2 GPU). Si prega di visitare il nostro sito web per ulteriori dettagli: https://haian-jin.github.io/projects/LVSM/ .
English
We propose the Large View Synthesis Model (LVSM), a novel transformer-based
approach for scalable and generalizable novel view synthesis from sparse-view
inputs. We introduce two architectures: (1) an encoder-decoder LVSM, which
encodes input image tokens into a fixed number of 1D latent tokens, functioning
as a fully learned scene representation, and decodes novel-view images from
them; and (2) a decoder-only LVSM, which directly maps input images to
novel-view outputs, completely eliminating intermediate scene representations.
Both models bypass the 3D inductive biases used in previous methods -- from 3D
representations (e.g., NeRF, 3DGS) to network designs (e.g., epipolar
projections, plane sweeps) -- addressing novel view synthesis with a fully
data-driven approach. While the encoder-decoder model offers faster inference
due to its independent latent representation, the decoder-only LVSM achieves
superior quality, scalability, and zero-shot generalization, outperforming
previous state-of-the-art methods by 1.5 to 3.5 dB PSNR. Comprehensive
evaluations across multiple datasets demonstrate that both LVSM variants
achieve state-of-the-art novel view synthesis quality. Notably, our models
surpass all previous methods even with reduced computational resources (1-2
GPUs). Please see our website for more details:
https://haian-jin.github.io/projects/LVSM/ .Summary
AI-Generated Summary