Romper os Silos de Dados: Rumo a Modelos de Mobilidade Abertos e Escaláveis por meio de Aprendizado Contínuo Generativo
Breaking Data Silos: Towards Open and Scalable Mobility Foundation Models via Generative Continual Learning
June 7, 2025
Autores: Yuan Yuan, Yukun Liu, Chonghua Han, Jie Feng, Yong Li
cs.AI
Resumo
Os modelos de fundação revolucionaram áreas como processamento de linguagem natural e visão computacional ao permitir aprendizado de propósito geral em diversas tarefas e conjuntos de dados. No entanto, a construção de modelos análogos para mobilidade humana permanece desafiadora devido à natureza sensível à privacidade dos dados de mobilidade e aos silos de dados resultantes entre instituições. Para preencher essa lacuna, propomos o MoveGCL, uma estrutura escalável e que preserva a privacidade para treinar modelos de fundação de mobilidade por meio de aprendizado contínuo generativo. Sem compartilhar dados brutos, o MoveGCL permite a evolução progressiva e descentralizada do modelo ao reproduzir trajetórias sintéticas geradas por um modelo professor congelado, e reforça a retenção de conhecimento por meio de uma estratégia de destilação personalizada que mitiga o esquecimento catastrófico. Para lidar com a heterogeneidade dos padrões de mobilidade, o MoveGCL incorpora um Transformer de Mistura de Especialistas com um mecanismo de roteamento de especialistas consciente da mobilidade, e emprega uma estratégia de adaptação progressiva por camadas para estabilizar atualizações contínuas. Experimentos em seis conjuntos de dados urbanos do mundo real demonstram que o MoveGCL alcança desempenho comparável ao treinamento conjunto e supera significativamente as abordagens de aprendizado federado, ao mesmo tempo que oferece forte proteção de privacidade. O MoveGCL representa um passo crucial para desbloquear modelos de fundação para mobilidade, oferecendo um plano prático para o desenvolvimento de modelos abertos, escaláveis e que preservam a privacidade na era dos modelos de fundação.
English
Foundation models have revolutionized fields such as natural language
processing and computer vision by enabling general-purpose learning across
diverse tasks and datasets. However, building analogous models for human
mobility remains challenging due to the privacy-sensitive nature of mobility
data and the resulting data silos across institutions. To bridge this gap, we
propose MoveGCL, a scalable and privacy-preserving framework for training
mobility foundation models via generative continual learning. Without sharing
raw data, MoveGCL enables decentralized and progressive model evolution by
replaying synthetic trajectories generated from a frozen teacher model, and
reinforces knowledge retention through a tailored distillation strategy that
mitigates catastrophic forgetting. To address the heterogeneity of mobility
patterns, MoveGCL incorporates a Mixture-of-Experts Transformer with a
mobility-aware expert routing mechanism, and employs a layer-wise progressive
adaptation strategy to stabilize continual updates. Experiments on six
real-world urban datasets demonstrate that MoveGCL achieves performance
comparable to joint training and significantly outperforms federated learning
baselines, while offering strong privacy protection. MoveGCL marks a crucial
step toward unlocking foundation models for mobility, offering a practical
blueprint for open, scalable, and privacy-preserving model development in the
era of foundation models.