ZPressor: Compresión Consciente de Cuellos de Botella para 3DGS de Avance Escalable
ZPressor: Bottleneck-Aware Compression for Scalable Feed-Forward 3DGS
May 29, 2025
Autores: Weijie Wang, Donny Y. Chen, Zeyu Zhang, Duochao Shi, Akide Liu, Bohan Zhuang
cs.AI
Resumen
Los modelos de *Feed-forward 3D Gaussian Splatting* (3DGS) han surgido recientemente como una solución prometedora para la síntesis de nuevas vistas, permitiendo inferencia en un solo paso sin la necesidad de optimización de 3DGS por escena. Sin embargo, su escalabilidad está fundamentalmente limitada por la capacidad reducida de sus codificadores, lo que lleva a un rendimiento degradado o a un consumo excesivo de memoria a medida que aumenta el número de vistas de entrada. En este trabajo, analizamos los marcos de *feed-forward* 3DGS a través del principio del *Information Bottleneck* e introducimos ZPressor, un módulo ligero independiente de la arquitectura que permite la compresión eficiente de entradas multivista en un estado latente compacto Z que retiene la información esencial de la escena mientras descarta la redundancia. Concretamente, ZPressor permite que los modelos existentes de *feed-forward* 3DGS escalen a más de 100 vistas de entrada en resolución 480P en una GPU de 80 GB, dividiendo las vistas en conjuntos de anclaje y soporte y utilizando atención cruzada para comprimir la información de las vistas de soporte en las vistas de anclaje, formando el estado latente comprimido Z. Demostramos que la integración de ZPressor en varios modelos de *feed-forward* 3DGS de última generación mejora consistentemente el rendimiento con un número moderado de vistas de entrada y aumenta la robustez en configuraciones de vistas densas en dos grandes conjuntos de referencia: DL3DV-10K y RealEstate10K. Los resultados en video, el código y los modelos entrenados están disponibles en nuestra página del proyecto: https://lhmd.top/zpressor.
English
Feed-forward 3D Gaussian Splatting (3DGS) models have recently emerged as a
promising solution for novel view synthesis, enabling one-pass inference
without the need for per-scene 3DGS optimization. However, their scalability is
fundamentally constrained by the limited capacity of their encoders, leading to
degraded performance or excessive memory consumption as the number of input
views increases. In this work, we analyze feed-forward 3DGS frameworks through
the lens of the Information Bottleneck principle and introduce ZPressor, a
lightweight architecture-agnostic module that enables efficient compression of
multi-view inputs into a compact latent state Z that retains essential scene
information while discarding redundancy. Concretely, ZPressor enables existing
feed-forward 3DGS models to scale to over 100 input views at 480P resolution on
an 80GB GPU, by partitioning the views into anchor and support sets and using
cross attention to compress the information from the support views into anchor
views, forming the compressed latent state Z. We show that integrating
ZPressor into several state-of-the-art feed-forward 3DGS models consistently
improves performance under moderate input views and enhances robustness under
dense view settings on two large-scale benchmarks DL3DV-10K and RealEstate10K.
The video results, code and trained models are available on our project page:
https://lhmd.top/zpressor.