Dateninseln überwinden: Auf dem Weg zu offenen und skalierbaren Mobilitäts-Foundation-Modellen durch generatives kontinuierliches Lernen

papers.abstract

Foundation Models haben Bereiche wie die natürliche Sprachverarbeitung und Computer Vision revolutioniert, indem sie allgemeingültiges Lernen über verschiedene Aufgaben und Datensätze hinweg ermöglichen. Die Entwicklung analoger Modelle für die menschliche Mobilität bleibt jedoch aufgrund der sensiblen Natur von Mobilitätsdaten und der daraus resultierenden Datensilos zwischen Institutionen eine Herausforderung. Um diese Lücke zu schließen, schlagen wir MoveGCL vor, ein skalierbares und datenschutzfreundliches Framework für das Training von Mobilitäts-Foundation-Modellen durch generatives kontinuierliches Lernen. Ohne Rohdaten zu teilen, ermöglicht MoveGCL eine dezentrale und progressive Modellentwicklung, indem synthetische Trajektorien, die von einem eingefrorenen Lehrer-Modell generiert werden, wiedergegeben werden. Es stärkt die Wissensbewahrung durch eine maßgeschneiderte Destillationsstrategie, die katastrophales Vergessen verhindert. Um die Heterogenität von Mobilitätsmustern zu berücksichtigen, integriert MoveGCL einen Mixture-of-Experts-Transformer mit einem mobilitätsbewussten Expert-Routing-Mechanismus und verwendet eine schrittweise Anpassungsstrategie auf Ebene der Schichten, um kontinuierliche Updates zu stabilisieren. Experimente mit sechs realen urbanen Datensätzen zeigen, dass MoveGCL eine Leistung erzielt, die mit gemeinsamem Training vergleichbar ist und federierte Lernbaselines deutlich übertrifft, während es gleichzeitig starken Datenschutz bietet. MoveGCL markiert einen entscheidenden Schritt hin zur Erschließung von Foundation-Modellen für die Mobilität und bietet einen praktischen Leitfaden für offene, skalierbare und datenschutzfreundliche Modellentwicklung im Zeitalter der Foundation-Modelle.

English

Foundation models have revolutionized fields such as natural language processing and computer vision by enabling general-purpose learning across diverse tasks and datasets. However, building analogous models for human mobility remains challenging due to the privacy-sensitive nature of mobility data and the resulting data silos across institutions. To bridge this gap, we propose MoveGCL, a scalable and privacy-preserving framework for training mobility foundation models via generative continual learning. Without sharing raw data, MoveGCL enables decentralized and progressive model evolution by replaying synthetic trajectories generated from a frozen teacher model, and reinforces knowledge retention through a tailored distillation strategy that mitigates catastrophic forgetting. To address the heterogeneity of mobility patterns, MoveGCL incorporates a Mixture-of-Experts Transformer with a mobility-aware expert routing mechanism, and employs a layer-wise progressive adaptation strategy to stabilize continual updates. Experiments on six real-world urban datasets demonstrate that MoveGCL achieves performance comparable to joint training and significantly outperforms federated learning baselines, while offering strong privacy protection. MoveGCL marks a crucial step toward unlocking foundation models for mobility, offering a practical blueprint for open, scalable, and privacy-preserving model development in the era of foundation models.

Dateninseln überwinden: Auf dem Weg zu offenen und skalierbaren Mobilitäts-Foundation-Modellen durch generatives kontinuierliches Lernen

Breaking Data Silos: Towards Open and Scalable Mobility Foundation Models via Generative Continual Learning

papers.abstract

Support