Briser les silos de données : Vers des modèles de mobilité ouverts et évolutifs grâce à l'apprentissage continu génératif

papers.abstract

Les modèles de base ont révolutionné des domaines tels que le traitement du langage naturel et la vision par ordinateur en permettant un apprentissage polyvalent sur des tâches et des ensembles de données variés. Cependant, la construction de modèles analogues pour la mobilité humaine reste un défi en raison de la nature sensible à la vie privée des données de mobilité et des silos de données qui en résultent entre les institutions. Pour combler cette lacune, nous proposons MoveGCL, un cadre évolutif et respectueux de la vie privée pour l'entraînement de modèles de base pour la mobilité via un apprentissage continu génératif. Sans partager de données brutes, MoveGCL permet une évolution décentralisée et progressive du modèle en rejouant des trajectoires synthétiques générées à partir d'un modèle enseignant figé, et renforce la rétention des connaissances grâce à une stratégie de distillation sur mesure qui atténue l'oubli catastrophique. Pour répondre à l'hétérogénéité des schémas de mobilité, MoveGCL intègre un Transformer à mélange d'experts avec un mécanisme de routage d'experts adapté à la mobilité, et utilise une stratégie d'adaptation progressive couche par couche pour stabiliser les mises à jour continues. Les expériences menées sur six ensembles de données urbaines réelles montrent que MoveGCL atteint des performances comparables à l'entraînement conjoint et surpasse significativement les approches d'apprentissage fédéré, tout en offrant une protection robuste de la vie privée. MoveGCL marque une étape cruciale vers le déverrouillage des modèles de base pour la mobilité, offrant un plan pratique pour un développement de modèles ouvert, évolutif et respectueux de la vie privée à l'ère des modèles de base.

English

Foundation models have revolutionized fields such as natural language processing and computer vision by enabling general-purpose learning across diverse tasks and datasets. However, building analogous models for human mobility remains challenging due to the privacy-sensitive nature of mobility data and the resulting data silos across institutions. To bridge this gap, we propose MoveGCL, a scalable and privacy-preserving framework for training mobility foundation models via generative continual learning. Without sharing raw data, MoveGCL enables decentralized and progressive model evolution by replaying synthetic trajectories generated from a frozen teacher model, and reinforces knowledge retention through a tailored distillation strategy that mitigates catastrophic forgetting. To address the heterogeneity of mobility patterns, MoveGCL incorporates a Mixture-of-Experts Transformer with a mobility-aware expert routing mechanism, and employs a layer-wise progressive adaptation strategy to stabilize continual updates. Experiments on six real-world urban datasets demonstrate that MoveGCL achieves performance comparable to joint training and significantly outperforms federated learning baselines, while offering strong privacy protection. MoveGCL marks a crucial step toward unlocking foundation models for mobility, offering a practical blueprint for open, scalable, and privacy-preserving model development in the era of foundation models.

Briser les silos de données : Vers des modèles de mobilité ouverts et évolutifs grâce à l'apprentissage continu génératif

Breaking Data Silos: Towards Open and Scalable Mobility Foundation Models via Generative Continual Learning

papers.abstract

Support