Data-silo's doorbreken: Naar open en schaalbare mobiliteitsfundamentmodellen via generatief continu leren

Samenvatting

Foundation models hebben een revolutie teweeggebracht in domeinen zoals natuurlijke taalverwerking en computervisie door algemeen toepasbaar leren over diverse taken en datasets mogelijk te maken. Het bouwen van vergelijkbare modellen voor menselijke mobiliteit blijft echter een uitdaging vanwege de privacygevoelige aard van mobiliteitsgegevens en de daaruit voortvloeiende datasilo's tussen instellingen. Om deze kloof te overbruggen, stellen we MoveGCL voor, een schaalbare en privacybeschermende framework voor het trainen van mobiliteits-foundationmodellen via generatief continu leren. Zonder ruwe data te delen, maakt MoveGCL gedecentraliseerde en progressieve modelontwikkeling mogelijk door synthetische trajecten te herhalen die gegenereerd zijn door een bevroren leraarmodel, en versterkt het kennisbehoud via een op maat gemaakte distillatiestrategie die catastrofaal vergeten tegengaat. Om de heterogeniteit van mobiliteitspatronen aan te pakken, integreert MoveGCL een Mixture-of-Experts Transformer met een mobiliteitsbewuste expertrouteringsmechanisme, en gebruikt het een laaggewijze progressieve aanpassingsstrategie om continue updates te stabiliseren. Experimenten op zes real-world stedelijke datasets tonen aan dat MoveGCL prestaties bereikt die vergelijkbaar zijn met gezamenlijke training en significant beter presteert dan federated learning-baselines, terwijl het sterke privacybescherming biedt. MoveGCL markeert een cruciale stap richting het ontsluiten van foundationmodellen voor mobiliteit, en biedt een praktisch blauwdruk voor open, schaalbare en privacybeschermende modelontwikkeling in het tijdperk van foundationmodellen.

English

Foundation models have revolutionized fields such as natural language processing and computer vision by enabling general-purpose learning across diverse tasks and datasets. However, building analogous models for human mobility remains challenging due to the privacy-sensitive nature of mobility data and the resulting data silos across institutions. To bridge this gap, we propose MoveGCL, a scalable and privacy-preserving framework for training mobility foundation models via generative continual learning. Without sharing raw data, MoveGCL enables decentralized and progressive model evolution by replaying synthetic trajectories generated from a frozen teacher model, and reinforces knowledge retention through a tailored distillation strategy that mitigates catastrophic forgetting. To address the heterogeneity of mobility patterns, MoveGCL incorporates a Mixture-of-Experts Transformer with a mobility-aware expert routing mechanism, and employs a layer-wise progressive adaptation strategy to stabilize continual updates. Experiments on six real-world urban datasets demonstrate that MoveGCL achieves performance comparable to joint training and significantly outperforms federated learning baselines, while offering strong privacy protection. MoveGCL marks a crucial step toward unlocking foundation models for mobility, offering a practical blueprint for open, scalable, and privacy-preserving model development in the era of foundation models.

Data-silo's doorbreken: Naar open en schaalbare mobiliteitsfundamentmodellen via generatief continu leren

Breaking Data Silos: Towards Open and Scalable Mobility Foundation Models via Generative Continual Learning

Samenvatting

Support