ChatPaper.aiChatPaper

ZPressor: Engpassbewusste Kompression für skalierbare Feed-Forward-3DGS

ZPressor: Bottleneck-Aware Compression for Scalable Feed-Forward 3DGS

May 29, 2025
Autoren: Weijie Wang, Donny Y. Chen, Zeyu Zhang, Duochao Shi, Akide Liu, Bohan Zhuang
cs.AI

Zusammenfassung

Feed-forward 3D Gaussian Splatting (3DGS)-Modelle haben sich kürzlich als vielversprechende Lösung für die Synthese neuer Ansichten erwiesen, da sie eine Einmal-Inferenz ermöglichen, ohne eine pro-Szene 3DGS-Optimierung zu erfordern. Ihre Skalierbarkeit ist jedoch grundlegend durch die begrenzte Kapazität ihrer Encoder eingeschränkt, was zu einer Verschlechterung der Leistung oder einem übermäßigen Speicherverbrauch führt, sobald die Anzahl der Eingabeansichten zunimmt. In dieser Arbeit analysieren wir Feed-forward-3DGS-Frameworks durch die Linse des Information-Bottleneck-Prinzips und führen ZPressor ein, ein leichtgewichtiges, architekturunabhängiges Modul, das eine effiziente Kompression von Multi-View-Eingaben in einen kompakten latenten Zustand Z ermöglicht, der wesentliche Szeneninformationen bewahrt, während Redundanzen verworfen werden. Konkret ermöglicht ZPressor bestehenden Feed-forward-3DGS-Modellen, auf über 100 Eingabeansichten bei 480P-Auflösung auf einer 80GB-GPU zu skalieren, indem die Ansichten in Anker- und Unterstützungsmengen unterteilt werden und Cross-Attention verwendet wird, um die Informationen aus den Unterstützungsansichten in Ankeransichten zu komprimieren und so den komprimierten latenten Zustand Z zu bilden. Wir zeigen, dass die Integration von ZPressor in mehrere state-of-the-art Feed-forward-3DGS-Modelle die Leistung bei moderaten Eingabeansichten konsistent verbessert und die Robustheit unter dichten Ansichtseinstellungen auf zwei groß angelegten Benchmarks, DL3DV-10K und RealEstate10K, erhöht. Die Videoergebnisse, der Code und die trainierten Modelle sind auf unserer Projektseite verfügbar: https://lhmd.top/zpressor.
English
Feed-forward 3D Gaussian Splatting (3DGS) models have recently emerged as a promising solution for novel view synthesis, enabling one-pass inference without the need for per-scene 3DGS optimization. However, their scalability is fundamentally constrained by the limited capacity of their encoders, leading to degraded performance or excessive memory consumption as the number of input views increases. In this work, we analyze feed-forward 3DGS frameworks through the lens of the Information Bottleneck principle and introduce ZPressor, a lightweight architecture-agnostic module that enables efficient compression of multi-view inputs into a compact latent state Z that retains essential scene information while discarding redundancy. Concretely, ZPressor enables existing feed-forward 3DGS models to scale to over 100 input views at 480P resolution on an 80GB GPU, by partitioning the views into anchor and support sets and using cross attention to compress the information from the support views into anchor views, forming the compressed latent state Z. We show that integrating ZPressor into several state-of-the-art feed-forward 3DGS models consistently improves performance under moderate input views and enhances robustness under dense view settings on two large-scale benchmarks DL3DV-10K and RealEstate10K. The video results, code and trained models are available on our project page: https://lhmd.top/zpressor.
PDF45May 30, 2025