LVSM: 最小限の3D帰納バイアスを持つ大視野合成モデル
LVSM: A Large View Synthesis Model with Minimal 3D Inductive Bias
October 22, 2024
著者: Haian Jin, Hanwen Jiang, Hao Tan, Kai Zhang, Sai Bi, Tianyuan Zhang, Fujun Luan, Noah Snavely, Zexiang Xu
cs.AI
要旨
私たちは、スパースビュー入力からスケーラブルで汎用性のある新しいビュー合成手法であるLarge View Synthesis Model(LVSM)を提案します。我々は、2つのアーキテクチャを導入します:(1)エンコーダーデコーダー型LVSMは、入力画像トークンを固定数の1次元潜在トークンにエンコードし、完全に学習されたシーン表現として機能し、それらから新しいビュー画像をデコードします。そして(2)デコーダーのみのLVSMは、入力画像を新しいビューの出力に直接マッピングし、中間のシーン表現を完全に排除します。両方のモデルは、以前の手法で使用されていた3D表現(例:NeRF、3DGS)からネットワーク設計(例:エピポーラ投影、平面走査)への3Dの帰紵バイアスをバイパスし、新しいビュー合成を完全にデータ駆動のアプローチで対処します。エンコーダーデコーダーモデルは独立した潜在表現のため推論が速く、一方、デコーダーのみのLVSMは優れた品質、スケーラビリティ、およびゼロショット汎化を実現し、従来の最先端手法を1.5から3.5 dB PSNRで上回ります。複数のデータセットを対象とした包括的な評価により、両LVSMバリアントが最先端の新しいビュー合成品質を達成することが示されました。特筆すべきは、当社のモデルが計算リソースを削減した状態(1-2 GPU)でも、すべての以前の手法を上回る点です。詳細は当社のウェブサイトをご覧ください:https://haian-jin.github.io/projects/LVSM/
English
We propose the Large View Synthesis Model (LVSM), a novel transformer-based
approach for scalable and generalizable novel view synthesis from sparse-view
inputs. We introduce two architectures: (1) an encoder-decoder LVSM, which
encodes input image tokens into a fixed number of 1D latent tokens, functioning
as a fully learned scene representation, and decodes novel-view images from
them; and (2) a decoder-only LVSM, which directly maps input images to
novel-view outputs, completely eliminating intermediate scene representations.
Both models bypass the 3D inductive biases used in previous methods -- from 3D
representations (e.g., NeRF, 3DGS) to network designs (e.g., epipolar
projections, plane sweeps) -- addressing novel view synthesis with a fully
data-driven approach. While the encoder-decoder model offers faster inference
due to its independent latent representation, the decoder-only LVSM achieves
superior quality, scalability, and zero-shot generalization, outperforming
previous state-of-the-art methods by 1.5 to 3.5 dB PSNR. Comprehensive
evaluations across multiple datasets demonstrate that both LVSM variants
achieve state-of-the-art novel view synthesis quality. Notably, our models
surpass all previous methods even with reduced computational resources (1-2
GPUs). Please see our website for more details:
https://haian-jin.github.io/projects/LVSM/ .Summary
AI-Generated Summary