Point-MoE : Vers une généralisation inter-domaines dans la segmentation sémantique 3D via un mélange d'experts

papers.abstract

Alors que les lois d'échelle ont transformé le traitement du langage naturel et la vision par ordinateur, la compréhension des nuages de points 3D n'a pas encore atteint ce stade. Cela peut être attribué à la fois à l'échelle relativement plus petite des ensembles de données 3D, ainsi qu'aux sources disparates des données elles-mêmes. Les nuages de points sont capturés par divers capteurs (par exemple, caméras de profondeur, LiDAR) dans des domaines variés (par exemple, intérieur, extérieur), chacun introduisant des modèles de balayage, des densités d'échantillonnage et des biais sémantiques uniques. Une telle hétérogénéité de domaine constitue un obstacle majeur à l'entraînement de modèles unifiés à grande échelle, en particulier sous la contrainte réaliste que les étiquettes de domaine sont généralement inaccessibles au moment de l'inférence. Dans ce travail, nous proposons Point-MoE, une architecture de Mélange d'Experts conçue pour permettre une généralisation à grande échelle et inter-domaines dans la perception 3D. Nous montrons que les architectures standard de nuages de points voient leurs performances se dégrader significativement lorsqu'elles sont entraînées sur des données multi-domaines, alors que Point-MoE avec une simple stratégie de routage top-k peut spécialiser automatiquement les experts, même sans accès aux étiquettes de domaine. Nos expériences démontrent que Point-MoE surpasse non seulement les solides références multi-domaines, mais généralise également mieux à des domaines non vus. Ce travail met en lumière une voie évolutive pour la compréhension 3D : laisser le modèle découvrir la structure dans des données 3D diverses, plutôt que de l'imposer par une curation manuelle ou une supervision de domaine.

English

While scaling laws have transformed natural language processing and computer vision, 3D point cloud understanding has yet to reach that stage. This can be attributed to both the comparatively smaller scale of 3D datasets, as well as the disparate sources of the data itself. Point clouds are captured by diverse sensors (e.g., depth cameras, LiDAR) across varied domains (e.g., indoor, outdoor), each introducing unique scanning patterns, sampling densities, and semantic biases. Such domain heterogeneity poses a major barrier towards training unified models at scale, especially under the realistic constraint that domain labels are typically inaccessible at inference time. In this work, we propose Point-MoE, a Mixture-of-Experts architecture designed to enable large-scale, cross-domain generalization in 3D perception. We show that standard point cloud backbones degrade significantly in performance when trained on mixed-domain data, whereas Point-MoE with a simple top-k routing strategy can automatically specialize experts, even without access to domain labels. Our experiments demonstrate that Point-MoE not only outperforms strong multi-domain baselines but also generalizes better to unseen domains. This work highlights a scalable path forward for 3D understanding: letting the model discover structure in diverse 3D data, rather than imposing it via manual curation or domain supervision.

Point-MoE : Vers une généralisation inter-domaines dans la segmentation sémantique 3D via un mélange d'experts

Point-MoE: Towards Cross-Domain Generalization in 3D Semantic Segmentation via Mixture-of-Experts

papers.abstract

Support