ProFuse: Fusione Efficiente del Contesto Cross-View per il Gaussian Splatting 3D Open-Vocabulary
ProFuse: Efficient Cross-View Context Fusion for Open-Vocabulary 3D Gaussian Splatting
January 8, 2026
Autori: Yen-Jen Chiou, Wei-Tse Cheng, Yuan-Fu Yang
cs.AI
Abstract
Presentiamo ProFuse, un framework efficiente e contestuale per la comprensione di scene 3D a vocabolario aperto con Gaussian Splatting 3D (3DGS). La pipeline migliora la coerenza inter-vista e la coesione intra-maschera in una configurazione di registrazione diretta, aggiungendo un overhead minimo e senza richiedere una messa a punto supervisionata dal rendering. Invece di basarsi su una scena 3DGS pre-addestrata, introduciamo una fase di pre-registrazione guidata da corrispondenze dense che inizializza i Gaussian con una geometria accurata, costruendo simultaneamente Proposte di Contesto 3D tramite clustering inter-vista. Ogni proposta possiede una caratteristica globale ottenuta attraverso l'aggregazione ponderata degli embedding dei membri, e questa caratteristica viene fusa sui Gaussian durante la registrazione diretta per mantenere una coerenza linguistica per primitiva attraverso le viste. Con le associazioni stabilite in anticipo, la fusione semantica non richiede ottimizzazioni aggiuntive oltre alla ricostruzione standard, e il modello mantiene l'affinamento geometrico senza addensamento. ProFuse raggiunge una solida comprensione 3DGS a vocabolario aperto completando l'assegnazione semantica in circa cinque minuti per scena, il che è due volte più veloce dello stato dell'arte.
English
We present ProFuse, an efficient context-aware framework for open-vocabulary 3D scene understanding with 3D Gaussian Splatting (3DGS). The pipeline enhances cross-view consistency and intra-mask cohesion within a direct registration setup, adding minimal overhead and requiring no render-supervised fine-tuning. Instead of relying on a pretrained 3DGS scene, we introduce a dense correspondence-guided pre-registration phase that initializes Gaussians with accurate geometry while jointly constructing 3D Context Proposals via cross-view clustering. Each proposal carries a global feature obtained through weighted aggregation of member embeddings, and this feature is fused onto Gaussians during direct registration to maintain per-primitive language coherence across views. With associations established in advance, semantic fusion requires no additional optimization beyond standard reconstruction, and the model retains geometric refinement without densification. ProFuse achieves strong open-vocabulary 3DGS understanding while completing semantic attachment in about five minutes per scene, which is two times faster than SOTA.