Rompiendo los silos de datos: hacia modelos fundamentales de movilidad abiertos y escalables mediante aprendizaje continuo generativo

Resumen

Los modelos fundacionales han revolucionado campos como el procesamiento del lenguaje natural y la visión por computadora al permitir el aprendizaje de propósito general en diversas tareas y conjuntos de datos. Sin embargo, la construcción de modelos análogos para la movilidad humana sigue siendo un desafío debido a la naturaleza sensible a la privacidad de los datos de movilidad y los consiguientes silos de datos entre instituciones. Para cerrar esta brecha, proponemos MoveGCL, un marco escalable y que preserva la privacidad para entrenar modelos fundacionales de movilidad mediante el aprendizaje continuo generativo. Sin compartir datos en bruto, MoveGCL permite la evolución descentralizada y progresiva del modelo mediante la reproducción de trayectorias sintéticas generadas a partir de un modelo maestro congelado, y refuerza la retención de conocimiento a través de una estrategia de destilación personalizada que mitiga el olvido catastrófico. Para abordar la heterogeneidad de los patrones de movilidad, MoveGCL incorpora un Transformer de Mezcla de Expertos con un mecanismo de enrutamiento de expertos consciente de la movilidad, y emplea una estrategia de adaptación progresiva por capas para estabilizar las actualizaciones continuas. Los experimentos en seis conjuntos de datos urbanos del mundo real demuestran que MoveGCL logra un rendimiento comparable al entrenamiento conjunto y supera significativamente los baselines de aprendizaje federado, al mismo tiempo que ofrece una fuerte protección de la privacidad. MoveGCL marca un paso crucial hacia el desarrollo de modelos fundacionales para la movilidad, ofreciendo un plan práctico para el desarrollo de modelos abiertos, escalables y que preservan la privacidad en la era de los modelos fundacionales.

English

Foundation models have revolutionized fields such as natural language processing and computer vision by enabling general-purpose learning across diverse tasks and datasets. However, building analogous models for human mobility remains challenging due to the privacy-sensitive nature of mobility data and the resulting data silos across institutions. To bridge this gap, we propose MoveGCL, a scalable and privacy-preserving framework for training mobility foundation models via generative continual learning. Without sharing raw data, MoveGCL enables decentralized and progressive model evolution by replaying synthetic trajectories generated from a frozen teacher model, and reinforces knowledge retention through a tailored distillation strategy that mitigates catastrophic forgetting. To address the heterogeneity of mobility patterns, MoveGCL incorporates a Mixture-of-Experts Transformer with a mobility-aware expert routing mechanism, and employs a layer-wise progressive adaptation strategy to stabilize continual updates. Experiments on six real-world urban datasets demonstrate that MoveGCL achieves performance comparable to joint training and significantly outperforms federated learning baselines, while offering strong privacy protection. MoveGCL marks a crucial step toward unlocking foundation models for mobility, offering a practical blueprint for open, scalable, and privacy-preserving model development in the era of foundation models.

Rompiendo los silos de datos: hacia modelos fundamentales de movilidad abiertos y escalables mediante aprendizaje continuo generativo

Breaking Data Silos: Towards Open and Scalable Mobility Foundation Models via Generative Continual Learning

Resumen

Support