ProFuse: 개방형 어휘 3D 가우시안 스플래팅을 위한 효율적인 교차 뷰 컨텍스트 융합
ProFuse: Efficient Cross-View Context Fusion for Open-Vocabulary 3D Gaussian Splatting
January 8, 2026
저자: Yen-Jen Chiou, Wei-Tse Cheng, Yuan-Fu Yang
cs.AI
초록
ProFuse는 3D Gaussian Splatting(3DGS)을 활용한 개방형 어휘 3D 장면 이해를 위한 효율적인 컨텍스트 인식 프레임워크입니다. 본 파이프라인은 직접 등록 설정 내에서 교차 뷰 일관성과 내부 마스크 응집성을 향상시키며, 최소한의 오버헤드만 추가하고 렌더링 기반 미세 조정이 필요하지 않습니다. 사전 학습된 3DGS 장면에 의존하는 대신, 우리는 정확한 기하학적 정보로 Gaussian을 초기화하는 조밀한 대응 관계 기반 사전 등록 단계와 교차 뷰 클러스터링을 통한 3D 컨텍스트 제안의 병합 구축을 도입합니다. 각 제안은 구성원 임베딩의 가중치 집계를 통해 얻은 전역 특징을 가지며, 이 특징은 직접 등록 과정에서 Gaussian에 융합되어 다양한 시점에서 프리미티브별 언어 일관성을 유지합니다. 연관성이 사전에 확립되기 때문에 의미론적 융합은 표준 재구성 외에 추가 최적화가 필요 없으며, 모델은 밀도화 없이도 기하학적 정제를 유지합니다. ProFuse는 강력한 개방형 어휘 3DGS 이해를 달성하면서 장면당 약 5분 내에 의미론적 부착을 완료하여 SOTA 대비 두 배 빠른 속도를 보입니다.
English
We present ProFuse, an efficient context-aware framework for open-vocabulary 3D scene understanding with 3D Gaussian Splatting (3DGS). The pipeline enhances cross-view consistency and intra-mask cohesion within a direct registration setup, adding minimal overhead and requiring no render-supervised fine-tuning. Instead of relying on a pretrained 3DGS scene, we introduce a dense correspondence-guided pre-registration phase that initializes Gaussians with accurate geometry while jointly constructing 3D Context Proposals via cross-view clustering. Each proposal carries a global feature obtained through weighted aggregation of member embeddings, and this feature is fused onto Gaussians during direct registration to maintain per-primitive language coherence across views. With associations established in advance, semantic fusion requires no additional optimization beyond standard reconstruction, and the model retains geometric refinement without densification. ProFuse achieves strong open-vocabulary 3DGS understanding while completing semantic attachment in about five minutes per scene, which is two times faster than SOTA.