ChatPaper.aiChatPaper

Point-MoE: 전문가 혼합을 통한 3D 의미론적 분할의 도메인 간 일반화를 향하여

Point-MoE: Towards Cross-Domain Generalization in 3D Semantic Segmentation via Mixture-of-Experts

May 29, 2025
저자: Xuweiyi Chen, Wentao Zhou, Aruni RoyChowdhury, Zezhou Cheng
cs.AI

초록

스케일링 법칙이 자연어 처리와 컴퓨터 비전 분야를 혁신적으로 변화시켰음에도 불구하고, 3D 포인트 클라우드 이해는 아직 그 단계에 도달하지 못했습니다. 이는 3D 데이터셋의 상대적으로 작은 규모와 데이터 자체의 다양한 출처에 기인할 수 있습니다. 포인트 클라우드는 다양한 센서(예: 깊이 카메라, LiDAR)를 통해 다양한 도메인(예: 실내, 실외)에서 캡처되며, 각각 고유한 스캐닝 패턴, 샘플링 밀도, 그리고 의미론적 편향을 도입합니다. 이러한 도메인 이질성은 특히 추론 시간에 도메인 레이블에 접근할 수 없다는 현실적인 제약 하에서 통합 모델을 대규모로 훈련하는 데 주요 장벽으로 작용합니다. 본 연구에서는 3D 인식에서 대규모 교차 도메인 일반화를 가능하게 하는 Mixture-of-Experts 아키텍처인 Point-MoE를 제안합니다. 우리는 혼합 도메인 데이터로 훈련할 때 표준 포인트 클라우드 백본이 성능이 크게 저하되는 반면, 단순한 top-k 라우팅 전략을 사용한 Point-MoE는 도메인 레이블에 접근하지 않고도 전문가를 자동으로 특수화할 수 있음을 보여줍니다. 우리의 실험은 Point-MoE가 강력한 다중 도메인 베이스라인을 능가할 뿐만 아니라 보이지 않는 도메인에 대해 더 나은 일반화 성능을 보인다는 것을 입증합니다. 이 연구는 3D 이해를 위한 확장 가능한 경로를 강조합니다: 모델이 다양한 3D 데이터에서 구조를 발견하도록 하는 것, 즉 수동 큐레이션이나 도메인 감독을 통해 구조를 강제하는 것이 아니라.
English
While scaling laws have transformed natural language processing and computer vision, 3D point cloud understanding has yet to reach that stage. This can be attributed to both the comparatively smaller scale of 3D datasets, as well as the disparate sources of the data itself. Point clouds are captured by diverse sensors (e.g., depth cameras, LiDAR) across varied domains (e.g., indoor, outdoor), each introducing unique scanning patterns, sampling densities, and semantic biases. Such domain heterogeneity poses a major barrier towards training unified models at scale, especially under the realistic constraint that domain labels are typically inaccessible at inference time. In this work, we propose Point-MoE, a Mixture-of-Experts architecture designed to enable large-scale, cross-domain generalization in 3D perception. We show that standard point cloud backbones degrade significantly in performance when trained on mixed-domain data, whereas Point-MoE with a simple top-k routing strategy can automatically specialize experts, even without access to domain labels. Our experiments demonstrate that Point-MoE not only outperforms strong multi-domain baselines but also generalizes better to unseen domains. This work highlights a scalable path forward for 3D understanding: letting the model discover structure in diverse 3D data, rather than imposing it via manual curation or domain supervision.
PDF52June 2, 2025