Point-MoE: Naar domeinoverschrijdende generalisatie in 3D semantische segmentatie via Mixture-of-Experts
Point-MoE: Towards Cross-Domain Generalization in 3D Semantic Segmentation via Mixture-of-Experts
May 29, 2025
Auteurs: Xuweiyi Chen, Wentao Zhou, Aruni RoyChowdhury, Zezhou Cheng
cs.AI
Samenvatting
Hoewel schaalwetten een transformatie hebben teweeggebracht in natuurlijke taalverwerking en computervisie, heeft het begrip van 3D-puntenwolken dat stadium nog niet bereikt. Dit kan worden toegeschreven aan zowel de relatief kleinere schaal van 3D-datasets als aan de uiteenlopende bronnen van de data zelf. Puntenwolken worden vastgelegd door diverse sensoren (bijvoorbeeld dieptecamera's, LiDAR) in verschillende domeinen (bijvoorbeeld binnen, buiten), elk met unieke scanpatronen, bemonsteringsdichtheden en semantische vooroordelen. Deze domeinheterogeniteit vormt een grote belemmering voor het trainen van uniforme modellen op grote schaal, vooral onder de realistische beperking dat domeinlabels tijdens de inferentie meestal niet toegankelijk zijn. In dit werk stellen we Point-MoE voor, een Mixture-of-Experts-architectuur die is ontworpen om grootschalige, domeinoverschrijdende generalisatie in 3D-perceptie mogelijk te maken. We laten zien dat standaard backbones voor puntenwolken aanzienlijk in prestaties achteruitgaan wanneer ze worden getraind op gemengde domeindata, terwijl Point-MoE met een eenvoudige top-k-routeringsstrategie experts automatisch kan specialiseren, zelfs zonder toegang tot domeinlabels. Onze experimenten tonen aan dat Point-MoE niet alleen sterke multi-domein-baselines overtreft, maar ook beter generaliseert naar onbekende domeinen. Dit werk belicht een schaalbare weg voorwaarts voor 3D-begrip: het model zelf structuur laten ontdekken in diverse 3D-data, in plaats van deze op te leggen via handmatige curatie of domeinsupervisie.
English
While scaling laws have transformed natural language processing and computer
vision, 3D point cloud understanding has yet to reach that stage. This can be
attributed to both the comparatively smaller scale of 3D datasets, as well as
the disparate sources of the data itself. Point clouds are captured by diverse
sensors (e.g., depth cameras, LiDAR) across varied domains (e.g., indoor,
outdoor), each introducing unique scanning patterns, sampling densities, and
semantic biases. Such domain heterogeneity poses a major barrier towards
training unified models at scale, especially under the realistic constraint
that domain labels are typically inaccessible at inference time. In this work,
we propose Point-MoE, a Mixture-of-Experts architecture designed to enable
large-scale, cross-domain generalization in 3D perception. We show that
standard point cloud backbones degrade significantly in performance when
trained on mixed-domain data, whereas Point-MoE with a simple top-k routing
strategy can automatically specialize experts, even without access to domain
labels. Our experiments demonstrate that Point-MoE not only outperforms strong
multi-domain baselines but also generalizes better to unseen domains. This work
highlights a scalable path forward for 3D understanding: letting the model
discover structure in diverse 3D data, rather than imposing it via manual
curation or domain supervision.