Bevölkerungsbewusste Diffusion zur Generierung von Zeitreihen
Population Aware Diffusion for Time Series Generation
January 1, 2025
Autoren: Yang Li, Han Meng, Zhenyu Bi, Ingolv T. Urnes, Haipeng Chen
cs.AI
Zusammenfassung
Diffusionsmodelle haben eine vielversprechende Fähigkeit gezeigt, hochwertige Zeitreihendaten zu generieren. Trotz des anfänglichen Erfolgs konzentrieren sich bestehende Arbeiten hauptsächlich auf die Authentizität von Daten auf individueller Ebene, aber weniger auf die Erhaltung der populationsbezogenen Eigenschaften des gesamten Datensatzes. Zu diesen populationsbezogenen Eigenschaften gehören Werteverteilungen für jede Dimension und Verteilungen bestimmter funktionaler Abhängigkeiten (z. B. Kreuzkorrelation, KK) zwischen verschiedenen Dimensionen. Beispielsweise sollten bei der Generierung von Zeitreihendaten zum Energieverbrauch im Haus die Werteverteilungen der Außentemperatur und der Küchentemperatur sowie die Verteilung der KK zwischen ihnen erhalten bleiben. Die Erhaltung solcher populationsbezogenen Eigenschaften von Zeitreihen ist entscheidend, um die statistischen Erkenntnisse der Datensätze zu bewahren, Modellverzerrungen zu mildern und nachgelagerte Aufgaben wie die Zeitreihenvorhersage zu verbessern. Dennoch wird dies oft von bestehenden Modellen übersehen. Daher weisen von bestehenden Modellen generierte Daten häufig Verteilungsverschiebungen gegenüber den Originaldaten auf. Wir schlagen Population-aware Diffusion for Time Series (PaD-TS) vor, ein neues Modell zur Generierung von Zeitreihen, das die populationsbezogenen Eigenschaften besser erhält. Die Hauptneuheiten von PaD-TS umfassen 1) eine neue Schulungsmethode, die explizit die Erhaltung der populationsbezogenen Eigenschaften von Zeitreihen berücksichtigt, und 2) eine neue Architektur des Dual-Channel-Encodermodells, die die Struktur der Zeitreihendaten besser erfasst. Empirische Ergebnisse in wichtigen Benchmark-Datensätzen zeigen, dass PaD-TS den durchschnittlichen KK-Verteilungsverschiebungswert zwischen realen und synthetischen Daten um das 5,9-fache verbessern kann, während eine Leistung vergleichbar mit State-of-the-Art-Modellen auf individueller Authentizität beibehalten wird.
English
Diffusion models have shown promising ability in generating high-quality time
series (TS) data. Despite the initial success, existing works mostly focus on
the authenticity of data at the individual level, but pay less attention to
preserving the population-level properties on the entire dataset. Such
population-level properties include value distributions for each dimension and
distributions of certain functional dependencies (e.g., cross-correlation, CC)
between different dimensions. For instance, when generating house energy
consumption TS data, the value distributions of the outside temperature and the
kitchen temperature should be preserved, as well as the distribution of CC
between them. Preserving such TS population-level properties is critical in
maintaining the statistical insights of the datasets, mitigating model bias,
and augmenting downstream tasks like TS prediction. Yet, it is often overlooked
by existing models. Hence, data generated by existing models often bear
distribution shifts from the original data. We propose Population-aware
Diffusion for Time Series (PaD-TS), a new TS generation model that better
preserves the population-level properties. The key novelties of PaD-TS include
1) a new training method explicitly incorporating TS population-level property
preservation, and 2) a new dual-channel encoder model architecture that better
captures the TS data structure. Empirical results in major benchmark datasets
show that PaD-TS can improve the average CC distribution shift score between
real and synthetic data by 5.9x while maintaining a performance comparable to
state-of-the-art models on individual-level authenticity.Summary
AI-Generated Summary