Superare i silos di dati: Verso modelli di mobilità aperti e scalabili attraverso l'apprendimento continuo generativo
Breaking Data Silos: Towards Open and Scalable Mobility Foundation Models via Generative Continual Learning
June 7, 2025
Autori: Yuan Yuan, Yukun Liu, Chonghua Han, Jie Feng, Yong Li
cs.AI
Abstract
I modelli di base hanno rivoluzionato campi come l'elaborazione del linguaggio naturale e la visione artificiale, abilitando l'apprendimento generico su una vasta gamma di compiti e dataset. Tuttavia, costruire modelli analoghi per la mobilità umana rimane una sfida a causa della natura sensibile alla privacy dei dati di mobilità e dei conseguenti silos di dati tra le istituzioni. Per colmare questa lacuna, proponiamo MoveGCL, un framework scalabile e rispettoso della privacy per l'addestramento di modelli di base per la mobilità attraverso l'apprendimento continuo generativo. Senza condividere dati grezzi, MoveGCL abilita un'evoluzione decentralizzata e progressiva del modello riproducendo traiettorie sintetiche generate da un modello insegnante congelato, e rafforza la ritenzione della conoscenza attraverso una strategia di distillazione personalizzata che mitiga l'oblio catastrofico. Per affrontare l'eterogeneità dei modelli di mobilità, MoveGCL incorpora un Transformer a Miscela di Esperti con un meccanismo di routing degli esperti consapevole della mobilità, e impiega una strategia di adattamento progressivo strato per strato per stabilizzare gli aggiornamenti continui. Esperimenti su sei dataset urbani del mondo reale dimostrano che MoveGCL raggiunge prestazioni paragonabili all'addestramento congiunto e supera significativamente i benchmark di apprendimento federato, offrendo al contempo una forte protezione della privacy. MoveGCL rappresenta un passo cruciale verso lo sblocco di modelli di base per la mobilità, offrendo una guida pratica per lo sviluppo di modelli aperti, scalabili e rispettosi della privacy nell'era dei modelli di base.
English
Foundation models have revolutionized fields such as natural language
processing and computer vision by enabling general-purpose learning across
diverse tasks and datasets. However, building analogous models for human
mobility remains challenging due to the privacy-sensitive nature of mobility
data and the resulting data silos across institutions. To bridge this gap, we
propose MoveGCL, a scalable and privacy-preserving framework for training
mobility foundation models via generative continual learning. Without sharing
raw data, MoveGCL enables decentralized and progressive model evolution by
replaying synthetic trajectories generated from a frozen teacher model, and
reinforces knowledge retention through a tailored distillation strategy that
mitigates catastrophic forgetting. To address the heterogeneity of mobility
patterns, MoveGCL incorporates a Mixture-of-Experts Transformer with a
mobility-aware expert routing mechanism, and employs a layer-wise progressive
adaptation strategy to stabilize continual updates. Experiments on six
real-world urban datasets demonstrate that MoveGCL achieves performance
comparable to joint training and significantly outperforms federated learning
baselines, while offering strong privacy protection. MoveGCL marks a crucial
step toward unlocking foundation models for mobility, offering a practical
blueprint for open, scalable, and privacy-preserving model development in the
era of foundation models.