Point-MoE: Verso la Generalizzazione Interdominio nella Segmentazione Semantica 3D tramite Mixture-of-Experts
Point-MoE: Towards Cross-Domain Generalization in 3D Semantic Segmentation via Mixture-of-Experts
May 29, 2025
Autori: Xuweiyi Chen, Wentao Zhou, Aruni RoyChowdhury, Zezhou Cheng
cs.AI
Abstract
Mentre le leggi di scala hanno rivoluzionato l'elaborazione del linguaggio naturale e la visione artificiale, la comprensione delle nuvole di punti 3D non ha ancora raggiunto questo stadio. Ciò può essere attribuito sia alla scala relativamente più ridotta dei dataset 3D, sia alle fonti disparate dei dati stessi. Le nuvole di punti vengono acquisite da sensori diversi (ad esempio, telecamere di profondità, LiDAR) in vari domini (ad esempio, interni, esterni), ciascuno dei quali introduce schemi di scansione, densità di campionamento e bias semantici unici. Tale eterogeneità di dominio rappresenta una barriera significativa per l'addestramento di modelli unificati su larga scala, specialmente sotto il vincolo realistico che le etichette di dominio sono tipicamente inaccessibili al momento dell'inferenza. In questo lavoro, proponiamo Point-MoE, un'architettura Mixture-of-Experts progettata per abilitare la generalizzazione su larga scala e cross-dominio nella percezione 3D. Mostriamo che i backbone standard per le nuvole di punti subiscono un significativo degrado delle prestazioni quando addestrati su dati di dominio misto, mentre Point-MoE con una semplice strategia di routing top-k può specializzare automaticamente gli esperti, anche senza accesso alle etichette di dominio. I nostri esperimenti dimostrano che Point-MoE non solo supera i forti baseline multi-dominio, ma generalizza anche meglio a domini non visti. Questo lavoro evidenzia un percorso scalabile per la comprensione 3D: lasciare che il modello scopra la struttura in dati 3D diversificati, piuttosto che imporla attraverso la cura manuale o la supervisione di dominio.
English
While scaling laws have transformed natural language processing and computer
vision, 3D point cloud understanding has yet to reach that stage. This can be
attributed to both the comparatively smaller scale of 3D datasets, as well as
the disparate sources of the data itself. Point clouds are captured by diverse
sensors (e.g., depth cameras, LiDAR) across varied domains (e.g., indoor,
outdoor), each introducing unique scanning patterns, sampling densities, and
semantic biases. Such domain heterogeneity poses a major barrier towards
training unified models at scale, especially under the realistic constraint
that domain labels are typically inaccessible at inference time. In this work,
we propose Point-MoE, a Mixture-of-Experts architecture designed to enable
large-scale, cross-domain generalization in 3D perception. We show that
standard point cloud backbones degrade significantly in performance when
trained on mixed-domain data, whereas Point-MoE with a simple top-k routing
strategy can automatically specialize experts, even without access to domain
labels. Our experiments demonstrate that Point-MoE not only outperforms strong
multi-domain baselines but also generalizes better to unseen domains. This work
highlights a scalable path forward for 3D understanding: letting the model
discover structure in diverse 3D data, rather than imposing it via manual
curation or domain supervision.