ZPressor: Compressione Consapevole dei Colli di Bottiglia per 3DGS Feed-Forward Scalabile
ZPressor: Bottleneck-Aware Compression for Scalable Feed-Forward 3DGS
May 29, 2025
Autori: Weijie Wang, Donny Y. Chen, Zeyu Zhang, Duochao Shi, Akide Liu, Bohan Zhuang
cs.AI
Abstract
I modelli Feed-forward 3D Gaussian Splatting (3DGS) sono emersi recentemente come una soluzione promettente per la sintesi di nuove viste, consentendo un'inferenza in un solo passaggio senza la necessità di un'ottimizzazione 3DGS per ogni scena. Tuttavia, la loro scalabilità è fondamentalmente limitata dalla capacità ridotta dei loro encoder, portando a prestazioni degradate o a un consumo eccessivo di memoria all'aumentare del numero di viste di input. In questo lavoro, analizziamo i framework feed-forward 3DGS attraverso la lente del principio del Collo di Bottiglia dell'Informazione e introduciamo ZPressor, un modulo leggero e indipendente dall'architettura che consente una compressione efficiente degli input multi-vista in uno stato latente compatto Z che conserva le informazioni essenziali della scena eliminando le ridondanze. Nello specifico, ZPressor permette ai modelli feed-forward 3DGS esistenti di scalare fino a oltre 100 viste di input a risoluzione 480P su una GPU da 80GB, suddividendo le viste in set di ancoraggio e supporto e utilizzando l'attenzione incrociata per comprimere le informazioni dalle viste di supporto nelle viste di ancoraggio, formando lo stato latente compresso Z. Dimostriamo che l'integrazione di ZPressor in diversi modelli feed-forward 3DGS all'avanguardia migliora costantemente le prestazioni con un numero moderato di viste di input e aumenta la robustezza in contesti di viste dense su due benchmark su larga scala, DL3DV-10K e RealEstate10K. I risultati video, il codice e i modelli addestrati sono disponibili sulla nostra pagina del progetto: https://lhmd.top/zpressor.
English
Feed-forward 3D Gaussian Splatting (3DGS) models have recently emerged as a
promising solution for novel view synthesis, enabling one-pass inference
without the need for per-scene 3DGS optimization. However, their scalability is
fundamentally constrained by the limited capacity of their encoders, leading to
degraded performance or excessive memory consumption as the number of input
views increases. In this work, we analyze feed-forward 3DGS frameworks through
the lens of the Information Bottleneck principle and introduce ZPressor, a
lightweight architecture-agnostic module that enables efficient compression of
multi-view inputs into a compact latent state Z that retains essential scene
information while discarding redundancy. Concretely, ZPressor enables existing
feed-forward 3DGS models to scale to over 100 input views at 480P resolution on
an 80GB GPU, by partitioning the views into anchor and support sets and using
cross attention to compress the information from the support views into anchor
views, forming the compressed latent state Z. We show that integrating
ZPressor into several state-of-the-art feed-forward 3DGS models consistently
improves performance under moderate input views and enhances robustness under
dense view settings on two large-scale benchmarks DL3DV-10K and RealEstate10K.
The video results, code and trained models are available on our project page:
https://lhmd.top/zpressor.