Rompiendo los silos de datos: hacia modelos fundamentales de movilidad abiertos y escalables mediante aprendizaje continuo generativo
Breaking Data Silos: Towards Open and Scalable Mobility Foundation Models via Generative Continual Learning
June 7, 2025
Autores: Yuan Yuan, Yukun Liu, Chonghua Han, Jie Feng, Yong Li
cs.AI
Resumen
Los modelos fundacionales han revolucionado campos como el procesamiento del lenguaje natural y la visión por computadora al permitir el aprendizaje de propósito general en diversas tareas y conjuntos de datos. Sin embargo, la construcción de modelos análogos para la movilidad humana sigue siendo un desafío debido a la naturaleza sensible a la privacidad de los datos de movilidad y los consiguientes silos de datos entre instituciones. Para cerrar esta brecha, proponemos MoveGCL, un marco escalable y que preserva la privacidad para entrenar modelos fundacionales de movilidad mediante el aprendizaje continuo generativo. Sin compartir datos en bruto, MoveGCL permite la evolución descentralizada y progresiva del modelo mediante la reproducción de trayectorias sintéticas generadas a partir de un modelo maestro congelado, y refuerza la retención de conocimiento a través de una estrategia de destilación personalizada que mitiga el olvido catastrófico. Para abordar la heterogeneidad de los patrones de movilidad, MoveGCL incorpora un Transformer de Mezcla de Expertos con un mecanismo de enrutamiento de expertos consciente de la movilidad, y emplea una estrategia de adaptación progresiva por capas para estabilizar las actualizaciones continuas. Los experimentos en seis conjuntos de datos urbanos del mundo real demuestran que MoveGCL logra un rendimiento comparable al entrenamiento conjunto y supera significativamente los baselines de aprendizaje federado, al mismo tiempo que ofrece una fuerte protección de la privacidad. MoveGCL marca un paso crucial hacia el desarrollo de modelos fundacionales para la movilidad, ofreciendo un plan práctico para el desarrollo de modelos abiertos, escalables y que preservan la privacidad en la era de los modelos fundacionales.
English
Foundation models have revolutionized fields such as natural language
processing and computer vision by enabling general-purpose learning across
diverse tasks and datasets. However, building analogous models for human
mobility remains challenging due to the privacy-sensitive nature of mobility
data and the resulting data silos across institutions. To bridge this gap, we
propose MoveGCL, a scalable and privacy-preserving framework for training
mobility foundation models via generative continual learning. Without sharing
raw data, MoveGCL enables decentralized and progressive model evolution by
replaying synthetic trajectories generated from a frozen teacher model, and
reinforces knowledge retention through a tailored distillation strategy that
mitigates catastrophic forgetting. To address the heterogeneity of mobility
patterns, MoveGCL incorporates a Mixture-of-Experts Transformer with a
mobility-aware expert routing mechanism, and employs a layer-wise progressive
adaptation strategy to stabilize continual updates. Experiments on six
real-world urban datasets demonstrate that MoveGCL achieves performance
comparable to joint training and significantly outperforms federated learning
baselines, while offering strong privacy protection. MoveGCL marks a crucial
step toward unlocking foundation models for mobility, offering a practical
blueprint for open, scalable, and privacy-preserving model development in the
era of foundation models.