ChatPaper.aiChatPaper

ZPressor: スケーラブルなフィードフォワード3DGSのためのボトルネック対応圧縮

ZPressor: Bottleneck-Aware Compression for Scalable Feed-Forward 3DGS

May 29, 2025
著者: Weijie Wang, Donny Y. Chen, Zeyu Zhang, Duochao Shi, Akide Liu, Bohan Zhuang
cs.AI

要旨

フィードフォワード3Dガウススプラッティング(3DGS)モデルは、最近、新規視点合成の有望な解決策として登場し、シーンごとの3DGS最適化を必要とせずにワンパス推論を可能にしています。しかし、そのスケーラビリティは、エンコーダの限られた容量によって根本的に制約されており、入力ビューの数が増加するにつれて性能の低下や過剰なメモリ消費を引き起こします。本研究では、情報ボトルネック原理の観点からフィードフォワード3DGSフレームワークを分析し、ZPressorを導入します。ZPressorは、軽量でアーキテクチャに依存しないモジュールであり、多視点入力をコンパクトな潜在状態Zに効率的に圧縮し、冗長性を排除しながら重要なシーン情報を保持します。具体的には、ZPressorは、ビューをアンカーセットとサポートセットに分割し、クロスアテンションを使用してサポートビューの情報をアンカービューに圧縮し、圧縮された潜在状態Zを形成することで、既存のフィードフォワード3DGSモデルが80GBのGPU上で480P解像度で100以上の入力ビューにスケールすることを可能にします。ZPressorをいくつかの最先端のフィードフォワード3DGSモデルに統合することで、中程度の入力ビュー下での性能が一貫して向上し、大規模ベンチマークDL3DV-10KおよびRealEstate10Kでの高密度ビュー設定下での堅牢性が向上することを示します。ビデオ結果、コード、およびトレーニング済みモデルは、プロジェクトページ(https://lhmd.top/zpressor)で公開されています。
English
Feed-forward 3D Gaussian Splatting (3DGS) models have recently emerged as a promising solution for novel view synthesis, enabling one-pass inference without the need for per-scene 3DGS optimization. However, their scalability is fundamentally constrained by the limited capacity of their encoders, leading to degraded performance or excessive memory consumption as the number of input views increases. In this work, we analyze feed-forward 3DGS frameworks through the lens of the Information Bottleneck principle and introduce ZPressor, a lightweight architecture-agnostic module that enables efficient compression of multi-view inputs into a compact latent state Z that retains essential scene information while discarding redundancy. Concretely, ZPressor enables existing feed-forward 3DGS models to scale to over 100 input views at 480P resolution on an 80GB GPU, by partitioning the views into anchor and support sets and using cross attention to compress the information from the support views into anchor views, forming the compressed latent state Z. We show that integrating ZPressor into several state-of-the-art feed-forward 3DGS models consistently improves performance under moderate input views and enhances robustness under dense view settings on two large-scale benchmarks DL3DV-10K and RealEstate10K. The video results, code and trained models are available on our project page: https://lhmd.top/zpressor.
PDF45May 30, 2025