Point-MoE: Verso la Generalizzazione Interdominio nella Segmentazione Semantica 3D tramite Mixture-of-Experts

Abstract

Mentre le leggi di scala hanno rivoluzionato l'elaborazione del linguaggio naturale e la visione artificiale, la comprensione delle nuvole di punti 3D non ha ancora raggiunto questo stadio. Ciò può essere attribuito sia alla scala relativamente più ridotta dei dataset 3D, sia alle fonti disparate dei dati stessi. Le nuvole di punti vengono acquisite da sensori diversi (ad esempio, telecamere di profondità, LiDAR) in vari domini (ad esempio, interni, esterni), ciascuno dei quali introduce schemi di scansione, densità di campionamento e bias semantici unici. Tale eterogeneità di dominio rappresenta una barriera significativa per l'addestramento di modelli unificati su larga scala, specialmente sotto il vincolo realistico che le etichette di dominio sono tipicamente inaccessibili al momento dell'inferenza. In questo lavoro, proponiamo Point-MoE, un'architettura Mixture-of-Experts progettata per abilitare la generalizzazione su larga scala e cross-dominio nella percezione 3D. Mostriamo che i backbone standard per le nuvole di punti subiscono un significativo degrado delle prestazioni quando addestrati su dati di dominio misto, mentre Point-MoE con una semplice strategia di routing top-k può specializzare automaticamente gli esperti, anche senza accesso alle etichette di dominio. I nostri esperimenti dimostrano che Point-MoE non solo supera i forti baseline multi-dominio, ma generalizza anche meglio a domini non visti. Questo lavoro evidenzia un percorso scalabile per la comprensione 3D: lasciare che il modello scopra la struttura in dati 3D diversificati, piuttosto che imporla attraverso la cura manuale o la supervisione di dominio.

English

While scaling laws have transformed natural language processing and computer vision, 3D point cloud understanding has yet to reach that stage. This can be attributed to both the comparatively smaller scale of 3D datasets, as well as the disparate sources of the data itself. Point clouds are captured by diverse sensors (e.g., depth cameras, LiDAR) across varied domains (e.g., indoor, outdoor), each introducing unique scanning patterns, sampling densities, and semantic biases. Such domain heterogeneity poses a major barrier towards training unified models at scale, especially under the realistic constraint that domain labels are typically inaccessible at inference time. In this work, we propose Point-MoE, a Mixture-of-Experts architecture designed to enable large-scale, cross-domain generalization in 3D perception. We show that standard point cloud backbones degrade significantly in performance when trained on mixed-domain data, whereas Point-MoE with a simple top-k routing strategy can automatically specialize experts, even without access to domain labels. Our experiments demonstrate that Point-MoE not only outperforms strong multi-domain baselines but also generalizes better to unseen domains. This work highlights a scalable path forward for 3D understanding: letting the model discover structure in diverse 3D data, rather than imposing it via manual curation or domain supervision.

Point-MoE: Verso la Generalizzazione Interdominio nella Segmentazione Semantica 3D tramite Mixture-of-Experts

Point-MoE: Towards Cross-Domain Generalization in 3D Semantic Segmentation via Mixture-of-Experts

Abstract

Support