ChatPaper.aiChatPaper

Point-MoE: Hacia la Generalización Transdominio en la Segmentación Semántica 3D mediante Mezcla de Expertos

Point-MoE: Towards Cross-Domain Generalization in 3D Semantic Segmentation via Mixture-of-Experts

May 29, 2025
Autores: Xuweiyi Chen, Wentao Zhou, Aruni RoyChowdhury, Zezhou Cheng
cs.AI

Resumen

Si bien las leyes de escalado han transformado el procesamiento del lenguaje natural y la visión por computadora, la comprensión de nubes de puntos 3D aún no ha alcanzado esa etapa. Esto puede atribuirse tanto a la escala comparativamente menor de los conjuntos de datos 3D como a las fuentes dispares de los propios datos. Las nubes de puntos son capturadas por diversos sensores (por ejemplo, cámaras de profundidad, LiDAR) en distintos dominios (por ejemplo, interiores, exteriores), cada uno introduciendo patrones de escaneo únicos, densidades de muestreo y sesgos semánticos. Tal heterogeneidad de dominios representa una barrera importante para entrenar modelos unificados a gran escala, especialmente bajo la restricción realista de que las etiquetas de dominio suelen ser inaccesibles en el momento de la inferencia. En este trabajo, proponemos Point-MoE, una arquitectura de Mezcla de Expertos diseñada para permitir la generalización a gran escala y entre dominios en la percepción 3D. Mostramos que los modelos estándar de nubes de puntos degradan significativamente su rendimiento cuando se entrenan con datos de dominios mixtos, mientras que Point-MoE con una simple estrategia de enrutamiento top-k puede especializar automáticamente a los expertos, incluso sin acceso a las etiquetas de dominio. Nuestros experimentos demuestran que Point-MoE no solo supera a las líneas base multi-dominio sólidas, sino que también generaliza mejor a dominios no vistos. Este trabajo destaca un camino escalable hacia adelante para la comprensión 3D: permitir que el modelo descubra la estructura en datos 3D diversos, en lugar de imponerla mediante curación manual o supervisión de dominio.
English
While scaling laws have transformed natural language processing and computer vision, 3D point cloud understanding has yet to reach that stage. This can be attributed to both the comparatively smaller scale of 3D datasets, as well as the disparate sources of the data itself. Point clouds are captured by diverse sensors (e.g., depth cameras, LiDAR) across varied domains (e.g., indoor, outdoor), each introducing unique scanning patterns, sampling densities, and semantic biases. Such domain heterogeneity poses a major barrier towards training unified models at scale, especially under the realistic constraint that domain labels are typically inaccessible at inference time. In this work, we propose Point-MoE, a Mixture-of-Experts architecture designed to enable large-scale, cross-domain generalization in 3D perception. We show that standard point cloud backbones degrade significantly in performance when trained on mixed-domain data, whereas Point-MoE with a simple top-k routing strategy can automatically specialize experts, even without access to domain labels. Our experiments demonstrate that Point-MoE not only outperforms strong multi-domain baselines but also generalizes better to unseen domains. This work highlights a scalable path forward for 3D understanding: letting the model discover structure in diverse 3D data, rather than imposing it via manual curation or domain supervision.
PDF52June 2, 2025