Point-MoE : Vers une généralisation inter-domaines dans la segmentation sémantique 3D via un mélange d'experts
Point-MoE: Towards Cross-Domain Generalization in 3D Semantic Segmentation via Mixture-of-Experts
May 29, 2025
Auteurs: Xuweiyi Chen, Wentao Zhou, Aruni RoyChowdhury, Zezhou Cheng
cs.AI
Résumé
Alors que les lois d'échelle ont transformé le traitement du langage naturel et la vision par ordinateur, la compréhension des nuages de points 3D n'a pas encore atteint ce stade. Cela peut être attribué à la fois à l'échelle relativement plus petite des ensembles de données 3D, ainsi qu'aux sources disparates des données elles-mêmes. Les nuages de points sont capturés par divers capteurs (par exemple, caméras de profondeur, LiDAR) dans des domaines variés (par exemple, intérieur, extérieur), chacun introduisant des modèles de balayage, des densités d'échantillonnage et des biais sémantiques uniques. Une telle hétérogénéité de domaine constitue un obstacle majeur à l'entraînement de modèles unifiés à grande échelle, en particulier sous la contrainte réaliste que les étiquettes de domaine sont généralement inaccessibles au moment de l'inférence. Dans ce travail, nous proposons Point-MoE, une architecture de Mélange d'Experts conçue pour permettre une généralisation à grande échelle et inter-domaines dans la perception 3D. Nous montrons que les architectures standard de nuages de points voient leurs performances se dégrader significativement lorsqu'elles sont entraînées sur des données multi-domaines, alors que Point-MoE avec une simple stratégie de routage top-k peut spécialiser automatiquement les experts, même sans accès aux étiquettes de domaine. Nos expériences démontrent que Point-MoE surpasse non seulement les solides références multi-domaines, mais généralise également mieux à des domaines non vus. Ce travail met en lumière une voie évolutive pour la compréhension 3D : laisser le modèle découvrir la structure dans des données 3D diverses, plutôt que de l'imposer par une curation manuelle ou une supervision de domaine.
English
While scaling laws have transformed natural language processing and computer
vision, 3D point cloud understanding has yet to reach that stage. This can be
attributed to both the comparatively smaller scale of 3D datasets, as well as
the disparate sources of the data itself. Point clouds are captured by diverse
sensors (e.g., depth cameras, LiDAR) across varied domains (e.g., indoor,
outdoor), each introducing unique scanning patterns, sampling densities, and
semantic biases. Such domain heterogeneity poses a major barrier towards
training unified models at scale, especially under the realistic constraint
that domain labels are typically inaccessible at inference time. In this work,
we propose Point-MoE, a Mixture-of-Experts architecture designed to enable
large-scale, cross-domain generalization in 3D perception. We show that
standard point cloud backbones degrade significantly in performance when
trained on mixed-domain data, whereas Point-MoE with a simple top-k routing
strategy can automatically specialize experts, even without access to domain
labels. Our experiments demonstrate that Point-MoE not only outperforms strong
multi-domain baselines but also generalizes better to unseen domains. This work
highlights a scalable path forward for 3D understanding: letting the model
discover structure in diverse 3D data, rather than imposing it via manual
curation or domain supervision.