ZPressor: Bottleneck-bewuste compressie voor schaalbare feed-forward 3DGS
ZPressor: Bottleneck-Aware Compression for Scalable Feed-Forward 3DGS
May 29, 2025
Auteurs: Weijie Wang, Donny Y. Chen, Zeyu Zhang, Duochao Shi, Akide Liu, Bohan Zhuang
cs.AI
Samenvatting
Feed-forward 3D Gaussian Splatting (3DGS) modellen zijn recent naar voren gekomen als een veelbelovende oplossing voor het synthetiseren van nieuwe gezichtspunten, waarbij ze eenmalige inferentie mogelijk maken zonder de noodzaak van per-scene 3DGS optimalisatie. Hun schaalbaarheid wordt echter fundamenteel beperkt door de beperkte capaciteit van hun encoders, wat leidt tot verminderde prestaties of excessief geheugengebruik naarmate het aantal invoerbeelden toeneemt. In dit werk analyseren we feed-forward 3DGS frameworks vanuit het perspectief van het Information Bottleneck-principe en introduceren we ZPressor, een lichtgewicht architectuuronafhankelijke module die efficiënte compressie van multi-view invoer mogelijk maakt in een compacte latente toestand Z die essentiële scène-informatie behoudt terwijl redundantie wordt verwijderd. Concreet stelt ZPressor bestaande feed-forward 3DGS modellen in staat om te schalen naar meer dan 100 invoerbeelden bij 480P resolutie op een 80GB GPU, door de beelden te verdelen in anker- en ondersteuningssets en cross attention te gebruiken om de informatie van de ondersteuningsbeelden te comprimeren in ankerbeelden, waardoor de gecomprimeerde latente toestand Z wordt gevormd. We laten zien dat de integratie van ZPressor in verschillende state-of-the-art feed-forward 3DGS modellen consistent de prestaties verbetert bij een matig aantal invoerbeelden en de robuustheid verhoogt onder dichte beeldinstellingen op twee grootschalige benchmarks, DL3DV-10K en RealEstate10K. De videoresultaten, code en getrainde modellen zijn beschikbaar op onze projectpagina: https://lhmd.top/zpressor.
English
Feed-forward 3D Gaussian Splatting (3DGS) models have recently emerged as a
promising solution for novel view synthesis, enabling one-pass inference
without the need for per-scene 3DGS optimization. However, their scalability is
fundamentally constrained by the limited capacity of their encoders, leading to
degraded performance or excessive memory consumption as the number of input
views increases. In this work, we analyze feed-forward 3DGS frameworks through
the lens of the Information Bottleneck principle and introduce ZPressor, a
lightweight architecture-agnostic module that enables efficient compression of
multi-view inputs into a compact latent state Z that retains essential scene
information while discarding redundancy. Concretely, ZPressor enables existing
feed-forward 3DGS models to scale to over 100 input views at 480P resolution on
an 80GB GPU, by partitioning the views into anchor and support sets and using
cross attention to compress the information from the support views into anchor
views, forming the compressed latent state Z. We show that integrating
ZPressor into several state-of-the-art feed-forward 3DGS models consistently
improves performance under moderate input views and enhances robustness under
dense view settings on two large-scale benchmarks DL3DV-10K and RealEstate10K.
The video results, code and trained models are available on our project page:
https://lhmd.top/zpressor.