Diffusion Consciente de la Population pour la Génération de Séries Temporelles

Population Aware Diffusion for Time Series Generation

January 1, 2025
Auteurs: Yang Li, Han Meng, Zhenyu Bi, Ingolv T. Urnes, Haipeng Chen
cs.AI

Résumé

Les modèles de diffusion ont montré une capacité prometteuse à générer des données de séries temporelles (TS) de haute qualité. Malgré le succès initial, les travaux existants se concentrent principalement sur l'authenticité des données au niveau individuel, mais accordent moins d'attention à la préservation des propriétés au niveau de la population sur l'ensemble des données. Ces propriétés au niveau de la population comprennent les distributions de valeurs pour chaque dimension et les distributions de certaines dépendances fonctionnelles (par exemple, la corrélation croisée, CC) entre différentes dimensions. Par exemple, lors de la génération de données de TS de consommation d'énergie domestique, les distributions de valeurs de la température extérieure et de la température de la cuisine doivent être préservées, ainsi que la distribution de CC entre elles. La préservation de telles propriétés au niveau de la population des TS est cruciale pour maintenir les connaissances statistiques des ensembles de données, atténuer les biais des modèles et améliorer les tâches ultérieures telles que la prédiction de TS. Pourtant, cela est souvent négligé par les modèles existants. Ainsi, les données générées par les modèles existants présentent souvent des décalages de distribution par rapport aux données originales. Nous proposons la Diffusion Sensible à la Population pour les Séries Temporelles (PaD-TS), un nouveau modèle de génération de TS qui préserve mieux les propriétés au niveau de la population. Les principales nouveautés de PaD-TS comprennent 1) une nouvelle méthode d'entraînement incorporant explicitement la préservation des propriétés au niveau de la population des TS, et 2) une nouvelle architecture de modèle d'encodeur à double canal qui capture mieux la structure des données de TS. Les résultats empiriques sur des ensembles de données de référence majeurs montrent que PaD-TS peut améliorer le score de décalage de distribution de la CC moyenne entre les données réelles et synthétiques de 5,9 fois tout en maintenant des performances comparables à celles des modèles de pointe en termes d'authenticité au niveau individuel.
English
Diffusion models have shown promising ability in generating high-quality time series (TS) data. Despite the initial success, existing works mostly focus on the authenticity of data at the individual level, but pay less attention to preserving the population-level properties on the entire dataset. Such population-level properties include value distributions for each dimension and distributions of certain functional dependencies (e.g., cross-correlation, CC) between different dimensions. For instance, when generating house energy consumption TS data, the value distributions of the outside temperature and the kitchen temperature should be preserved, as well as the distribution of CC between them. Preserving such TS population-level properties is critical in maintaining the statistical insights of the datasets, mitigating model bias, and augmenting downstream tasks like TS prediction. Yet, it is often overlooked by existing models. Hence, data generated by existing models often bear distribution shifts from the original data. We propose Population-aware Diffusion for Time Series (PaD-TS), a new TS generation model that better preserves the population-level properties. The key novelties of PaD-TS include 1) a new training method explicitly incorporating TS population-level property preservation, and 2) a new dual-channel encoder model architecture that better captures the TS data structure. Empirical results in major benchmark datasets show that PaD-TS can improve the average CC distribution shift score between real and synthetic data by 5.9x while maintaining a performance comparable to state-of-the-art models on individual-level authenticity.

Summary

AI-Generated Summary

PDF62January 3, 2025