ProFuse: Fusão Eficiente de Contexto entre Visões para Representação 3D com Splatting de Gaussianas de Vocabulário Aberto

Resumo

Apresentamos o ProFuse, uma estrutura eficiente e consciente do contexto para compreensão de cenas 3D com vocabulário aberto usando 3D Gaussian Splatting (3DGS). O *pipeline* melhora a consistência entre vistas e a coesão intramáscara numa configuração de registo direto, adicionando sobrecarga mínima e não necessitando de afinação supervisionada por renderização. Em vez de depender de uma cena 3DGS pré-treinada, introduzimos uma fase de pré-registo guiado por correspondências densas que inicializa os Gaussianos com geometria precisa enquanto constrói conjuntamente Propostas de Contexto 3D através de agrupamento entre vistas. Cada proposta transporta uma característica global obtida através da agregação ponderada de *embeddings* dos membros, e esta característica é fundida nos Gaussianos durante o registo direto para manter a coerência linguística por primitiva entre vistas. Com as associações estabelecidas antecipadamente, a fusão semântica não requer otimização adicional para além da reconstrução padrão, e o modelo mantém o refinamento geométrico sem densificação. O ProFuse alcança uma compreensão robusta de cenas 3DGS com vocabulário aberto enquanto conclui a anexação semântica em cerca de cinco minutos por cena, o que é duas vezes mais rápido que o estado da arte (SOTA).

English

We present ProFuse, an efficient context-aware framework for open-vocabulary 3D scene understanding with 3D Gaussian Splatting (3DGS). The pipeline enhances cross-view consistency and intra-mask cohesion within a direct registration setup, adding minimal overhead and requiring no render-supervised fine-tuning. Instead of relying on a pretrained 3DGS scene, we introduce a dense correspondence-guided pre-registration phase that initializes Gaussians with accurate geometry while jointly constructing 3D Context Proposals via cross-view clustering. Each proposal carries a global feature obtained through weighted aggregation of member embeddings, and this feature is fused onto Gaussians during direct registration to maintain per-primitive language coherence across views. With associations established in advance, semantic fusion requires no additional optimization beyond standard reconstruction, and the model retains geometric refinement without densification. ProFuse achieves strong open-vocabulary 3DGS understanding while completing semantic attachment in about five minutes per scene, which is two times faster than SOTA.