LVSM: Un Modelo de Síntesis de Gran Vista con un Mínimo Sesgo Inductivo 3D
LVSM: A Large View Synthesis Model with Minimal 3D Inductive Bias
October 22, 2024
Autores: Haian Jin, Hanwen Jiang, Hao Tan, Kai Zhang, Sai Bi, Tianyuan Zhang, Fujun Luan, Noah Snavely, Zexiang Xu
cs.AI
Resumen
Proponemos el Modelo de Síntesis de Vistas Amplias (LVSM, por sus siglas en inglés), un enfoque novedoso basado en transformadores para la síntesis de vistas nuevas escalable y generalizable a partir de entradas de vistas dispersas. Introducimos dos arquitecturas: (1) un LVSM codificador-decodificador, que codifica tokens de imagen de entrada en un número fijo de tokens latentes unidimensionales, funcionando como una representación de escena completamente aprendida, y decodifica imágenes de vista nueva a partir de ellos; y (2) un LVSM solo decodificador, que mapea directamente imágenes de entrada a salidas de vista nueva, eliminando por completo representaciones de escena intermedias. Ambos modelos evitan los sesgos inductivos 3D utilizados en métodos anteriores, desde representaciones 3D (por ejemplo, NeRF, 3DGS) hasta diseños de redes (por ejemplo, proyecciones epipolares, barridos de planos), abordando la síntesis de vista nueva con un enfoque totalmente basado en datos. Mientras que el modelo codificador-decodificador ofrece una inferencia más rápida debido a su representación latente independiente, el LVSM solo decodificador logra una calidad, escalabilidad y generalización de cero dispar superior, superando a métodos anteriores de vanguardia en 1.5 a 3.5 dB PSNR. Evaluaciones exhaustivas en múltiples conjuntos de datos demuestran que ambas variantes de LVSM logran una calidad de síntesis de vista nueva de vanguardia. Notablemente, nuestros modelos superan a todos los métodos anteriores incluso con recursos computacionales reducidos (1-2 GPUs). Para más detalles, por favor visite nuestro sitio web: https://haian-jin.github.io/projects/LVSM/ .
English
We propose the Large View Synthesis Model (LVSM), a novel transformer-based
approach for scalable and generalizable novel view synthesis from sparse-view
inputs. We introduce two architectures: (1) an encoder-decoder LVSM, which
encodes input image tokens into a fixed number of 1D latent tokens, functioning
as a fully learned scene representation, and decodes novel-view images from
them; and (2) a decoder-only LVSM, which directly maps input images to
novel-view outputs, completely eliminating intermediate scene representations.
Both models bypass the 3D inductive biases used in previous methods -- from 3D
representations (e.g., NeRF, 3DGS) to network designs (e.g., epipolar
projections, plane sweeps) -- addressing novel view synthesis with a fully
data-driven approach. While the encoder-decoder model offers faster inference
due to its independent latent representation, the decoder-only LVSM achieves
superior quality, scalability, and zero-shot generalization, outperforming
previous state-of-the-art methods by 1.5 to 3.5 dB PSNR. Comprehensive
evaluations across multiple datasets demonstrate that both LVSM variants
achieve state-of-the-art novel view synthesis quality. Notably, our models
surpass all previous methods even with reduced computational resources (1-2
GPUs). Please see our website for more details:
https://haian-jin.github.io/projects/LVSM/ .Summary
AI-Generated Summary