Point-MoE: Naar domeinoverschrijdende generalisatie in 3D semantische segmentatie via Mixture-of-Experts

Samenvatting

Hoewel schaalwetten een transformatie hebben teweeggebracht in natuurlijke taalverwerking en computervisie, heeft het begrip van 3D-puntenwolken dat stadium nog niet bereikt. Dit kan worden toegeschreven aan zowel de relatief kleinere schaal van 3D-datasets als aan de uiteenlopende bronnen van de data zelf. Puntenwolken worden vastgelegd door diverse sensoren (bijvoorbeeld dieptecamera's, LiDAR) in verschillende domeinen (bijvoorbeeld binnen, buiten), elk met unieke scanpatronen, bemonsteringsdichtheden en semantische vooroordelen. Deze domeinheterogeniteit vormt een grote belemmering voor het trainen van uniforme modellen op grote schaal, vooral onder de realistische beperking dat domeinlabels tijdens de inferentie meestal niet toegankelijk zijn. In dit werk stellen we Point-MoE voor, een Mixture-of-Experts-architectuur die is ontworpen om grootschalige, domeinoverschrijdende generalisatie in 3D-perceptie mogelijk te maken. We laten zien dat standaard backbones voor puntenwolken aanzienlijk in prestaties achteruitgaan wanneer ze worden getraind op gemengde domeindata, terwijl Point-MoE met een eenvoudige top-k-routeringsstrategie experts automatisch kan specialiseren, zelfs zonder toegang tot domeinlabels. Onze experimenten tonen aan dat Point-MoE niet alleen sterke multi-domein-baselines overtreft, maar ook beter generaliseert naar onbekende domeinen. Dit werk belicht een schaalbare weg voorwaarts voor 3D-begrip: het model zelf structuur laten ontdekken in diverse 3D-data, in plaats van deze op te leggen via handmatige curatie of domeinsupervisie.

English

While scaling laws have transformed natural language processing and computer vision, 3D point cloud understanding has yet to reach that stage. This can be attributed to both the comparatively smaller scale of 3D datasets, as well as the disparate sources of the data itself. Point clouds are captured by diverse sensors (e.g., depth cameras, LiDAR) across varied domains (e.g., indoor, outdoor), each introducing unique scanning patterns, sampling densities, and semantic biases. Such domain heterogeneity poses a major barrier towards training unified models at scale, especially under the realistic constraint that domain labels are typically inaccessible at inference time. In this work, we propose Point-MoE, a Mixture-of-Experts architecture designed to enable large-scale, cross-domain generalization in 3D perception. We show that standard point cloud backbones degrade significantly in performance when trained on mixed-domain data, whereas Point-MoE with a simple top-k routing strategy can automatically specialize experts, even without access to domain labels. Our experiments demonstrate that Point-MoE not only outperforms strong multi-domain baselines but also generalizes better to unseen domains. This work highlights a scalable path forward for 3D understanding: letting the model discover structure in diverse 3D data, rather than imposing it via manual curation or domain supervision.

Point-MoE: Naar domeinoverschrijdende generalisatie in 3D semantische segmentatie via Mixture-of-Experts

Point-MoE: Towards Cross-Domain Generalization in 3D Semantic Segmentation via Mixture-of-Experts

Samenvatting

Support