LVSM: Um Modelo de Síntese de Grande Visão com Viés Indutivo 3D Mínimo

Resumo

Propomos o Modelo de Síntese de Grande Visão (LVSM), uma abordagem inovadora baseada em transformadores para síntese de visões novas escalável e generalizável a partir de entradas de visão esparsa. Introduzimos duas arquiteturas: (1) um LVSM codificador-decodificador, que codifica tokens de imagem de entrada em um número fixo de tokens latentes unidimensionais, funcionando como uma representação de cena totalmente aprendida, e decodifica imagens de visão nova a partir deles; e (2) um LVSM apenas decodificador, que mapeia diretamente imagens de entrada para saídas de visão nova, eliminando completamente representações de cena intermediárias. Ambos os modelos contornam os vieses indutivos 3D usados em métodos anteriores - de representações 3D (por exemplo, NeRF, 3DGS) a projetos de rede (por exemplo, projeções epipolares, varreduras de planos) - abordando a síntese de visão nova com uma abordagem totalmente baseada em dados. Enquanto o modelo codificador-decodificador oferece inferência mais rápida devido à sua representação latente independente, o LVSM apenas decodificador alcança qualidade superior, escalabilidade e generalização de zero disparos, superando métodos anteriores de última geração em 1,5 a 3,5 dB PSNR. Avaliações abrangentes em vários conjuntos de dados demonstram que ambas as variantes do LVSM alcançam qualidade de síntese de visão nova de última geração. Notavelmente, nossos modelos superam todos os métodos anteriores mesmo com recursos computacionais reduzidos (1-2 GPUs). Consulte nosso site para mais detalhes: https://haian-jin.github.io/projects/LVSM/ .

English

We propose the Large View Synthesis Model (LVSM), a novel transformer-based approach for scalable and generalizable novel view synthesis from sparse-view inputs. We introduce two architectures: (1) an encoder-decoder LVSM, which encodes input image tokens into a fixed number of 1D latent tokens, functioning as a fully learned scene representation, and decodes novel-view images from them; and (2) a decoder-only LVSM, which directly maps input images to novel-view outputs, completely eliminating intermediate scene representations. Both models bypass the 3D inductive biases used in previous methods -- from 3D representations (e.g., NeRF, 3DGS) to network designs (e.g., epipolar projections, plane sweeps) -- addressing novel view synthesis with a fully data-driven approach. While the encoder-decoder model offers faster inference due to its independent latent representation, the decoder-only LVSM achieves superior quality, scalability, and zero-shot generalization, outperforming previous state-of-the-art methods by 1.5 to 3.5 dB PSNR. Comprehensive evaluations across multiple datasets demonstrate that both LVSM variants achieve state-of-the-art novel view synthesis quality. Notably, our models surpass all previous methods even with reduced computational resources (1-2 GPUs). Please see our website for more details: https://haian-jin.github.io/projects/LVSM/ .

LVSM: Um Modelo de Síntese de Grande Visão com Viés Indutivo 3D Mínimo

LVSM: A Large View Synthesis Model with Minimal 3D Inductive Bias

Resumo

Support