Renderização por Quantis: Incorporação Eficiente de Características de Alta Dimensionalidade no 3D Gaussian Splatting

Resumo

Os recentes avanços em visão computacional estenderam com sucesso a segmentação de vocabulário aberto (OVS) para o domínio 3D através da utilização do 3D Gaussian Splatting (3D-GS). Apesar deste progresso, a renderização eficiente das características de alta dimensão necessárias para consultas de vocabulário aberto representa um desafio significativo. Os métodos existentes empregam dicionários de códigos (codebooks) ou compressão de características, causando perda de informação e, consequentemente, degradando a qualidade da segmentação. Para superar esta limitação, introduzimos o Quantile Rendering (Q-Render), uma nova estratégia de renderização para Gaussianas 3D que processa eficientemente características de alta dimensão, mantendo alta fidelidade. Ao contrário da renderização volumétrica convencional, que amostra densamente todas as Gaussianas 3D que intersectam cada raio, o Q-Render amostra esparsamente apenas aquelas com influência dominante ao longo do raio. Ao integrar o Q-Render numa rede neural 3D generalizável, propomos também a Gaussian Splatting Network (GS-Net), que prevê as características Gaussianas de forma generalizável. Experiências extensivas no ScanNet e LeRF demonstram que o nosso framework supera os métodos state-of-the-art, permitindo ao mesmo tempo renderização em tempo real com uma aceleração aproximada de ~43,7x em mapas de características de 512 dimensões. O código será disponibilizado publicamente.

English

Recent advancements in computer vision have successfully extended Open-vocabulary segmentation (OVS) to the 3D domain by leveraging 3D Gaussian Splatting (3D-GS). Despite this progress, efficiently rendering the high-dimensional features required for open-vocabulary queries poses a significant challenge. Existing methods employ codebooks or feature compression, causing information loss, thereby degrading segmentation quality. To address this limitation, we introduce Quantile Rendering (Q-Render), a novel rendering strategy for 3D Gaussians that efficiently handles high-dimensional features while maintaining high fidelity. Unlike conventional volume rendering, which densely samples all 3D Gaussians intersecting each ray, Q-Render sparsely samples only those with dominant influence along the ray. By integrating Q-Render into a generalizable 3D neural network, we also propose Gaussian Splatting Network (GS-Net), which predicts Gaussian features in a generalizable manner. Extensive experiments on ScanNet and LeRF demonstrate that our framework outperforms state-of-the-art methods, while enabling real-time rendering with an approximate ~43.7x speedup on 512-D feature maps. Code will be made publicly available.

Renderização por Quantis: Incorporação Eficiente de Características de Alta Dimensionalidade no 3D Gaussian Splatting

Quantile Rendering: Efficiently Embedding High-dimensional Feature on 3D Gaussian Splatting

Resumo

Support