Point-MoE: Rumo à Generalização Transdomínio na Segmentação Semântica 3D via Mistura de Especialistas
Point-MoE: Towards Cross-Domain Generalization in 3D Semantic Segmentation via Mixture-of-Experts
May 29, 2025
Autores: Xuweiyi Chen, Wentao Zhou, Aruni RoyChowdhury, Zezhou Cheng
cs.AI
Resumo
Embora as leis de escala tenham transformado o processamento de linguagem natural e a visão computacional, a compreensão de nuvens de pontos 3D ainda não atingiu esse estágio. Isso pode ser atribuído tanto à escala comparativamente menor dos conjuntos de dados 3D quanto às fontes diversas dos próprios dados. As nuvens de pontos são capturadas por sensores variados (por exemplo, câmeras de profundidade, LiDAR) em diferentes domínios (por exemplo, ambientes internos, externos), cada um introduzindo padrões de varredura únicos, densidades de amostragem e vieses semânticos. Essa heterogeneidade de domínio representa uma grande barreira para o treinamento de modelos unificados em escala, especialmente sob a restrição realista de que os rótulos de domínio geralmente não estão acessíveis no momento da inferência. Neste trabalho, propomos o Point-MoE, uma arquitetura de Mistura de Especialistas (Mixture-of-Experts) projetada para permitir generalização em grande escala e entre domínios na percepção 3D. Mostramos que os backbones padrão de nuvens de pontos têm uma degradação significativa no desempenho quando treinados com dados de domínios mistos, enquanto o Point-MoE, com uma simples estratégia de roteamento top-k, pode especializar automaticamente os especialistas, mesmo sem acesso aos rótulos de domínio. Nossos experimentos demonstram que o Point-MoE não apenas supera as linhas de base multi-domínio fortes, mas também generaliza melhor para domínios não vistos. Este trabalho destaca um caminho escalável para a compreensão 3D: permitir que o modelo descubra a estrutura em dados 3D diversos, em vez de impô-la por meio de curadoria manual ou supervisão de domínio.
English
While scaling laws have transformed natural language processing and computer
vision, 3D point cloud understanding has yet to reach that stage. This can be
attributed to both the comparatively smaller scale of 3D datasets, as well as
the disparate sources of the data itself. Point clouds are captured by diverse
sensors (e.g., depth cameras, LiDAR) across varied domains (e.g., indoor,
outdoor), each introducing unique scanning patterns, sampling densities, and
semantic biases. Such domain heterogeneity poses a major barrier towards
training unified models at scale, especially under the realistic constraint
that domain labels are typically inaccessible at inference time. In this work,
we propose Point-MoE, a Mixture-of-Experts architecture designed to enable
large-scale, cross-domain generalization in 3D perception. We show that
standard point cloud backbones degrade significantly in performance when
trained on mixed-domain data, whereas Point-MoE with a simple top-k routing
strategy can automatically specialize experts, even without access to domain
labels. Our experiments demonstrate that Point-MoE not only outperforms strong
multi-domain baselines but also generalizes better to unseen domains. This work
highlights a scalable path forward for 3D understanding: letting the model
discover structure in diverse 3D data, rather than imposing it via manual
curation or domain supervision.