LVSM: Um Modelo de Síntese de Grande Visão com Viés Indutivo 3D Mínimo
LVSM: A Large View Synthesis Model with Minimal 3D Inductive Bias
October 22, 2024
Autores: Haian Jin, Hanwen Jiang, Hao Tan, Kai Zhang, Sai Bi, Tianyuan Zhang, Fujun Luan, Noah Snavely, Zexiang Xu
cs.AI
Resumo
Propomos o Modelo de Síntese de Grande Visão (LVSM), uma abordagem inovadora baseada em transformadores para síntese de visões novas escalável e generalizável a partir de entradas de visão esparsa. Introduzimos duas arquiteturas: (1) um LVSM codificador-decodificador, que codifica tokens de imagem de entrada em um número fixo de tokens latentes unidimensionais, funcionando como uma representação de cena totalmente aprendida, e decodifica imagens de visão nova a partir deles; e (2) um LVSM apenas decodificador, que mapeia diretamente imagens de entrada para saídas de visão nova, eliminando completamente representações de cena intermediárias. Ambos os modelos contornam os vieses indutivos 3D usados em métodos anteriores - de representações 3D (por exemplo, NeRF, 3DGS) a projetos de rede (por exemplo, projeções epipolares, varreduras de planos) - abordando a síntese de visão nova com uma abordagem totalmente baseada em dados. Enquanto o modelo codificador-decodificador oferece inferência mais rápida devido à sua representação latente independente, o LVSM apenas decodificador alcança qualidade superior, escalabilidade e generalização de zero disparos, superando métodos anteriores de última geração em 1,5 a 3,5 dB PSNR. Avaliações abrangentes em vários conjuntos de dados demonstram que ambas as variantes do LVSM alcançam qualidade de síntese de visão nova de última geração. Notavelmente, nossos modelos superam todos os métodos anteriores mesmo com recursos computacionais reduzidos (1-2 GPUs). Consulte nosso site para mais detalhes: https://haian-jin.github.io/projects/LVSM/ .
English
We propose the Large View Synthesis Model (LVSM), a novel transformer-based
approach for scalable and generalizable novel view synthesis from sparse-view
inputs. We introduce two architectures: (1) an encoder-decoder LVSM, which
encodes input image tokens into a fixed number of 1D latent tokens, functioning
as a fully learned scene representation, and decodes novel-view images from
them; and (2) a decoder-only LVSM, which directly maps input images to
novel-view outputs, completely eliminating intermediate scene representations.
Both models bypass the 3D inductive biases used in previous methods -- from 3D
representations (e.g., NeRF, 3DGS) to network designs (e.g., epipolar
projections, plane sweeps) -- addressing novel view synthesis with a fully
data-driven approach. While the encoder-decoder model offers faster inference
due to its independent latent representation, the decoder-only LVSM achieves
superior quality, scalability, and zero-shot generalization, outperforming
previous state-of-the-art methods by 1.5 to 3.5 dB PSNR. Comprehensive
evaluations across multiple datasets demonstrate that both LVSM variants
achieve state-of-the-art novel view synthesis quality. Notably, our models
surpass all previous methods even with reduced computational resources (1-2
GPUs). Please see our website for more details:
https://haian-jin.github.io/projects/LVSM/ .Summary
AI-Generated Summary