Rendering Quantile: Integrazione Efficiente di Caratteristiche Multidimensionali nel 3D Gaussian Splatting

Abstract

I recenti progressi nella computer vision hanno esteso con successo la segmentazione open-vocabulary (OVS) al dominio 3D sfruttando il Gaussian Splatting 3D (3D-GS). Nonostante questi progressi, il rendering efficiente delle feature ad alta dimensionalità richieste per query open-vocabulary rappresenta una sfida significativa. I metodi esistenti impiegano codebook o compressione delle feature, causando una perdita di informazioni che degrada la qualità della segmentazione. Per affrontare questa limitazione, introduciamo il Quantile Rendering (Q-Render), una nuova strategia di rendering per Gaussiane 3D che gestisce efficientemente feature ad alta dimensionalità mantenendo un'alta fedeltà. A differenza del rendering volumetrico convenzionale, che campiona densamente tutte le Gaussiane 3D che intersecano ogni raggio, Q-Render campiona in modo sparso solo quelle con influenza dominante lungo il raggio. Integrando Q-Render in una rete neurale 3D generalizzabile, proponiamo anche la Gaussian Splatting Network (GS-Net), che predice le feature delle Gaussiane in modo generalizzabile. Esperimenti estensivi su ScanNet e LeRF dimostrano che il nostro framework supera i metodi allo stato dell'arte, consentendo al contempo un rendering in tempo reale con un aumento di velocità approssimativo di ~43.7x su mappe di feature a 512 dimensioni. Il codice sarà reso pubblico.

English

Recent advancements in computer vision have successfully extended Open-vocabulary segmentation (OVS) to the 3D domain by leveraging 3D Gaussian Splatting (3D-GS). Despite this progress, efficiently rendering the high-dimensional features required for open-vocabulary queries poses a significant challenge. Existing methods employ codebooks or feature compression, causing information loss, thereby degrading segmentation quality. To address this limitation, we introduce Quantile Rendering (Q-Render), a novel rendering strategy for 3D Gaussians that efficiently handles high-dimensional features while maintaining high fidelity. Unlike conventional volume rendering, which densely samples all 3D Gaussians intersecting each ray, Q-Render sparsely samples only those with dominant influence along the ray. By integrating Q-Render into a generalizable 3D neural network, we also propose Gaussian Splatting Network (GS-Net), which predicts Gaussian features in a generalizable manner. Extensive experiments on ScanNet and LeRF demonstrate that our framework outperforms state-of-the-art methods, while enabling real-time rendering with an approximate ~43.7x speedup on 512-D feature maps. Code will be made publicly available.

Rendering Quantile: Integrazione Efficiente di Caratteristiche Multidimensionali nel 3D Gaussian Splatting

Quantile Rendering: Efficiently Embedding High-dimensional Feature on 3D Gaussian Splatting

Abstract

Support