Point-MoE: Auf dem Weg zur domänenübergreifenden Generalisierung in der 3D-Semantiksegmentierung mittels Mixture-of-Experts
Point-MoE: Towards Cross-Domain Generalization in 3D Semantic Segmentation via Mixture-of-Experts
May 29, 2025
Autoren: Xuweiyi Chen, Wentao Zhou, Aruni RoyChowdhury, Zezhou Cheng
cs.AI
Zusammenfassung
Während Skalierungsgesetze die natürliche Sprachverarbeitung und die Computer Vision revolutioniert haben, steht das Verständnis von 3D-Punktwolken noch nicht auf dieser Stufe. Dies lässt sich sowohl auf den vergleichsweise geringeren Umfang von 3D-Datensätzen als auch auf die unterschiedlichen Quellen der Daten selbst zurückführen. Punktwolken werden von verschiedenen Sensoren (z. B. Tiefenkameras, LiDAR) in unterschiedlichen Domänen (z. B. Innenräume, Außenbereiche) erfasst, wobei jede Domäne einzigartige Scanmuster, Abtastdichten und semantische Verzerrungen einführt. Solche Domänenheterogenität stellt ein großes Hindernis für das Training einheitlicher Modelle im großen Maßstab dar, insbesondere unter der realistischen Einschränkung, dass Domänenlabels zum Zeitpunkt der Inferenz typischerweise nicht zugänglich sind. In dieser Arbeit schlagen wir Point-MoE vor, eine Mixture-of-Experts-Architektur, die darauf abzielt, eine groß angelegte, domänenübergreifende Generalisierung in der 3D-Wahrnehmung zu ermöglichen. Wir zeigen, dass Standard-Backbones für Punktwolken bei der Verwendung von gemischten Domänendaten erheblich an Leistung einbüßen, während Point-MoE mit einer einfachen Top-k-Routing-Strategie Experten automatisch spezialisieren kann, selbst ohne Zugriff auf Domänenlabels. Unsere Experimente demonstrieren, dass Point-MoE nicht nur starke Multi-Domänen-Baselines übertrifft, sondern auch besser auf unbekannte Domänen generalisiert. Diese Arbeit zeigt einen skalierbaren Weg für das 3D-Verständnis auf: Das Modell lässt Strukturen in diversen 3D-Daten entdecken, anstatt sie durch manuelle Kuratierung oder Domänenaufsicht vorzugeben.
English
While scaling laws have transformed natural language processing and computer
vision, 3D point cloud understanding has yet to reach that stage. This can be
attributed to both the comparatively smaller scale of 3D datasets, as well as
the disparate sources of the data itself. Point clouds are captured by diverse
sensors (e.g., depth cameras, LiDAR) across varied domains (e.g., indoor,
outdoor), each introducing unique scanning patterns, sampling densities, and
semantic biases. Such domain heterogeneity poses a major barrier towards
training unified models at scale, especially under the realistic constraint
that domain labels are typically inaccessible at inference time. In this work,
we propose Point-MoE, a Mixture-of-Experts architecture designed to enable
large-scale, cross-domain generalization in 3D perception. We show that
standard point cloud backbones degrade significantly in performance when
trained on mixed-domain data, whereas Point-MoE with a simple top-k routing
strategy can automatically specialize experts, even without access to domain
labels. Our experiments demonstrate that Point-MoE not only outperforms strong
multi-domain baselines but also generalizes better to unseen domains. This work
highlights a scalable path forward for 3D understanding: letting the model
discover structure in diverse 3D data, rather than imposing it via manual
curation or domain supervision.