ProFuse : Fusion efficace du contexte inter-vues pour le placage de gaussiennes 3D à vocabulaire ouvert
ProFuse: Efficient Cross-View Context Fusion for Open-Vocabulary 3D Gaussian Splatting
January 8, 2026
papers.authors: Yen-Jen Chiou, Wei-Tse Cheng, Yuan-Fu Yang
cs.AI
papers.abstract
Nous présentons ProFuse, un cadre efficace et contextuel pour la compréhension de scènes 3D en vocabulaire ouvert avec la méthode de splatting par gaussiennes 3D (3DGS). Le pipeline améliore la cohérence inter-vues et la cohésion intra-masque dans une configuration d'enregistrement direct, ajoutant une surcharge minimale et ne nécessitant aucun ajustement fin supervisé par rendu. Au lieu de s'appuyer sur une scène 3DGS pré-entraînée, nous introduisons une phase de pré-enregistrement guidée par des correspondances denses qui initialise les gaussiennes avec une géométrie précise tout en construisant conjointement des propositions de contexte 3D via un regroupement inter-vues. Chaque proposition porte une caractéristique globale obtenue par agrégation pondérée des plongements des membres, et cette caractéristique est fusionnée sur les gaussiennes lors de l'enregistrement direct pour maintenir une cohérence linguistique par primitive à travers les vues. Les associations étant établies à l'avance, la fusion sémantique ne nécessite aucune optimisation supplémentaire au-delà de la reconstruction standard, et le modèle conserve un affinage géométrique sans densification. ProFuse atteint une solide compréhension 3DGS en vocabulaire ouvert tout en complétant l'attachement sémantique en environ cinq minutes par scène, ce qui est deux fois plus rapide que l'état de l'art.
English
We present ProFuse, an efficient context-aware framework for open-vocabulary 3D scene understanding with 3D Gaussian Splatting (3DGS). The pipeline enhances cross-view consistency and intra-mask cohesion within a direct registration setup, adding minimal overhead and requiring no render-supervised fine-tuning. Instead of relying on a pretrained 3DGS scene, we introduce a dense correspondence-guided pre-registration phase that initializes Gaussians with accurate geometry while jointly constructing 3D Context Proposals via cross-view clustering. Each proposal carries a global feature obtained through weighted aggregation of member embeddings, and this feature is fused onto Gaussians during direct registration to maintain per-primitive language coherence across views. With associations established in advance, semantic fusion requires no additional optimization beyond standard reconstruction, and the model retains geometric refinement without densification. ProFuse achieves strong open-vocabulary 3DGS understanding while completing semantic attachment in about five minutes per scene, which is two times faster than SOTA.