ZPressor : Compression consciente des goulots d'étranglement pour une mise à l'échelle efficace des réseaux de neurones 3DGS en propagation avant
ZPressor: Bottleneck-Aware Compression for Scalable Feed-Forward 3DGS
May 29, 2025
Auteurs: Weijie Wang, Donny Y. Chen, Zeyu Zhang, Duochao Shi, Akide Liu, Bohan Zhuang
cs.AI
Résumé
Les modèles de projection gaussienne 3D en flux direct (3DGS) ont récemment émergé comme une solution prometteuse pour la synthèse de nouvelles vues, permettant une inférence en une seule passe sans nécessiter d'optimisation 3DGS par scène. Cependant, leur évolutivité est fondamentalement limitée par la capacité réduite de leurs encodeurs, entraînant une dégradation des performances ou une consommation excessive de mémoire à mesure que le nombre de vues d'entrée augmente. Dans ce travail, nous analysons les frameworks 3DGS en flux direct à travers le prisme du principe du goulot d'étranglement de l'information et introduisons ZPressor, un module léger et indépendant de l'architecture qui permet une compression efficace des entrées multi-vues en un état latent compact Z, conservant les informations essentielles de la scène tout en éliminant la redondance. Concrètement, ZPressor permet aux modèles 3DGS en flux direct existants de s'adapter à plus de 100 vues d'entrée à une résolution de 480P sur un GPU de 80 Go, en partitionnant les vues en ensembles d'ancrage et de support et en utilisant l'attention croisée pour compresser les informations des vues de support dans les vues d'ancrage, formant ainsi l'état latent compressé Z. Nous montrons que l'intégration de ZPressor dans plusieurs modèles 3DGS en flux direct de pointe améliore systématiquement les performances avec un nombre modéré de vues d'entrée et renforce la robustesse dans des configurations de vues denses sur deux benchmarks à grande échelle, DL3DV-10K et RealEstate10K. Les résultats vidéo, le code et les modèles entraînés sont disponibles sur notre page de projet : https://lhmd.top/zpressor.
English
Feed-forward 3D Gaussian Splatting (3DGS) models have recently emerged as a
promising solution for novel view synthesis, enabling one-pass inference
without the need for per-scene 3DGS optimization. However, their scalability is
fundamentally constrained by the limited capacity of their encoders, leading to
degraded performance or excessive memory consumption as the number of input
views increases. In this work, we analyze feed-forward 3DGS frameworks through
the lens of the Information Bottleneck principle and introduce ZPressor, a
lightweight architecture-agnostic module that enables efficient compression of
multi-view inputs into a compact latent state Z that retains essential scene
information while discarding redundancy. Concretely, ZPressor enables existing
feed-forward 3DGS models to scale to over 100 input views at 480P resolution on
an 80GB GPU, by partitioning the views into anchor and support sets and using
cross attention to compress the information from the support views into anchor
views, forming the compressed latent state Z. We show that integrating
ZPressor into several state-of-the-art feed-forward 3DGS models consistently
improves performance under moderate input views and enhances robustness under
dense view settings on two large-scale benchmarks DL3DV-10K and RealEstate10K.
The video results, code and trained models are available on our project page:
https://lhmd.top/zpressor.