LVSM: Большая модель синтеза обзора с минимальным 3D индуктивным смещением.
LVSM: A Large View Synthesis Model with Minimal 3D Inductive Bias
October 22, 2024
Авторы: Haian Jin, Hanwen Jiang, Hao Tan, Kai Zhang, Sai Bi, Tianyuan Zhang, Fujun Luan, Noah Snavely, Zexiang Xu
cs.AI
Аннотация
Мы предлагаем модель синтеза широкого обзора (LVSM), новый подход на основе трансформера для масштабируемого и обобщенного синтеза нового обзора из разреженных входных данных. Мы представляем две архитектуры: (1) кодер-декодер LVSM, который кодирует токены входного изображения в фиксированное количество одномерных латентных токенов, функционируя как полностью обученное представление сцены, и декодирует новые изображения обзора из них; и (2) только-декодер LVSM, который напрямую отображает входные изображения в выходы нового обзора, полностью устраняя промежуточные представления сцены. Обе модели обходят 3D индуктивные предвзятости, использованные в предыдущих методах - от 3D представлений (например, NeRF, 3DGS) до конструкций сетей (например, эпиполярные проекции, плоские сканирования) - решая проблему синтеза нового обзора с полностью данных-ориентированным подходом. В то время как модель кодер-декодер обеспечивает более быстрое вывод из-за независимого латентного представления, только-декодер LVSM достигает превосходного качества, масштабируемости и обобщения без обучения, превосходя предыдущие методы с лучшими показателями PSNR на 1.5 до 3.5 дБ. Комплексные оценки на нескольких наборах данных показывают, что обе варианты LVSM достигают высокого качества синтеза нового обзора. Заметим, что наши модели превосходят все предыдущие методы даже при ограниченных вычислительных ресурсах (1-2 ГПУ). Более подробную информацию можно найти на нашем веб-сайте: https://haian-jin.github.io/projects/LVSM/ .
English
We propose the Large View Synthesis Model (LVSM), a novel transformer-based
approach for scalable and generalizable novel view synthesis from sparse-view
inputs. We introduce two architectures: (1) an encoder-decoder LVSM, which
encodes input image tokens into a fixed number of 1D latent tokens, functioning
as a fully learned scene representation, and decodes novel-view images from
them; and (2) a decoder-only LVSM, which directly maps input images to
novel-view outputs, completely eliminating intermediate scene representations.
Both models bypass the 3D inductive biases used in previous methods -- from 3D
representations (e.g., NeRF, 3DGS) to network designs (e.g., epipolar
projections, plane sweeps) -- addressing novel view synthesis with a fully
data-driven approach. While the encoder-decoder model offers faster inference
due to its independent latent representation, the decoder-only LVSM achieves
superior quality, scalability, and zero-shot generalization, outperforming
previous state-of-the-art methods by 1.5 to 3.5 dB PSNR. Comprehensive
evaluations across multiple datasets demonstrate that both LVSM variants
achieve state-of-the-art novel view synthesis quality. Notably, our models
surpass all previous methods even with reduced computational resources (1-2
GPUs). Please see our website for more details:
https://haian-jin.github.io/projects/LVSM/ .Summary
AI-Generated Summary