Point-MoE: Auf dem Weg zur domänenübergreifenden Generalisierung in der 3D-Semantiksegmentierung mittels Mixture-of-Experts

papers.abstract

Während Skalierungsgesetze die natürliche Sprachverarbeitung und die Computer Vision revolutioniert haben, steht das Verständnis von 3D-Punktwolken noch nicht auf dieser Stufe. Dies lässt sich sowohl auf den vergleichsweise geringeren Umfang von 3D-Datensätzen als auch auf die unterschiedlichen Quellen der Daten selbst zurückführen. Punktwolken werden von verschiedenen Sensoren (z. B. Tiefenkameras, LiDAR) in unterschiedlichen Domänen (z. B. Innenräume, Außenbereiche) erfasst, wobei jede Domäne einzigartige Scanmuster, Abtastdichten und semantische Verzerrungen einführt. Solche Domänenheterogenität stellt ein großes Hindernis für das Training einheitlicher Modelle im großen Maßstab dar, insbesondere unter der realistischen Einschränkung, dass Domänenlabels zum Zeitpunkt der Inferenz typischerweise nicht zugänglich sind. In dieser Arbeit schlagen wir Point-MoE vor, eine Mixture-of-Experts-Architektur, die darauf abzielt, eine groß angelegte, domänenübergreifende Generalisierung in der 3D-Wahrnehmung zu ermöglichen. Wir zeigen, dass Standard-Backbones für Punktwolken bei der Verwendung von gemischten Domänendaten erheblich an Leistung einbüßen, während Point-MoE mit einer einfachen Top-k-Routing-Strategie Experten automatisch spezialisieren kann, selbst ohne Zugriff auf Domänenlabels. Unsere Experimente demonstrieren, dass Point-MoE nicht nur starke Multi-Domänen-Baselines übertrifft, sondern auch besser auf unbekannte Domänen generalisiert. Diese Arbeit zeigt einen skalierbaren Weg für das 3D-Verständnis auf: Das Modell lässt Strukturen in diversen 3D-Daten entdecken, anstatt sie durch manuelle Kuratierung oder Domänenaufsicht vorzugeben.

English

While scaling laws have transformed natural language processing and computer vision, 3D point cloud understanding has yet to reach that stage. This can be attributed to both the comparatively smaller scale of 3D datasets, as well as the disparate sources of the data itself. Point clouds are captured by diverse sensors (e.g., depth cameras, LiDAR) across varied domains (e.g., indoor, outdoor), each introducing unique scanning patterns, sampling densities, and semantic biases. Such domain heterogeneity poses a major barrier towards training unified models at scale, especially under the realistic constraint that domain labels are typically inaccessible at inference time. In this work, we propose Point-MoE, a Mixture-of-Experts architecture designed to enable large-scale, cross-domain generalization in 3D perception. We show that standard point cloud backbones degrade significantly in performance when trained on mixed-domain data, whereas Point-MoE with a simple top-k routing strategy can automatically specialize experts, even without access to domain labels. Our experiments demonstrate that Point-MoE not only outperforms strong multi-domain baselines but also generalizes better to unseen domains. This work highlights a scalable path forward for 3D understanding: letting the model discover structure in diverse 3D data, rather than imposing it via manual curation or domain supervision.

Point-MoE: Auf dem Weg zur domänenübergreifenden Generalisierung in der 3D-Semantiksegmentierung mittels Mixture-of-Experts

Point-MoE: Towards Cross-Domain Generalization in 3D Semantic Segmentation via Mixture-of-Experts

papers.abstract

Support