Populatiebewuste diffusie voor het genereren van tijdreeksen
Population Aware Diffusion for Time Series Generation
January 1, 2025
Auteurs: Yang Li, Han Meng, Zhenyu Bi, Ingolv T. Urnes, Haipeng Chen
cs.AI
Samenvatting
Diffusiemodellen hebben een veelbelovend vermogen getoond om hoogwaardige tijdreeks (TS) gegevens te genereren. Ondanks het aanvankelijke succes richten bestaande werken zich voornamelijk op de authenticiteit van gegevens op individueel niveau, maar besteden minder aandacht aan het behouden van de eigenschappen op populatieniveau van de gehele dataset. Dergelijke populatieniveau eigenschappen omvatten waardeverdelingen voor elke dimensie en de verdelingen van bepaalde functionele afhankelijkheden (bijv. kruiscorrelatie, CC) tussen verschillende dimensies. Bijvoorbeeld, bij het genereren van TS-gegevens over energieverbruik in huizen, moeten de waardeverdelingen van de buitentemperatuur en de keukentemperatuur behouden blijven, evenals de verdeling van CC tussen hen. Het behouden van dergelijke TS populatieniveau eigenschappen is cruciaal om de statistische inzichten van de datasets te behouden, modelbias te verminderen en downstream taken zoals TS-voorspelling te verbeteren. Toch wordt dit vaak over het hoofd gezien door bestaande modellen. Daarom vertonen gegevens die door bestaande modellen worden gegenereerd vaak verdelingsverschuivingen van de originele gegevens. Wij stellen Population-aware Diffusion for Time Series (PaD-TS) voor, een nieuw TS-generatiemodel dat de populatieniveau eigenschappen beter behoudt. De belangrijkste vernieuwingen van PaD-TS omvatten 1) een nieuwe trainingsmethode die expliciet TS populatieniveau eigenschappen behoudt, en 2) een nieuwe architectuur van een dubbelkanaals encodermodel dat de structuur van de TS-gegevens beter vastlegt. Empirische resultaten in belangrijke benchmarkdatasets tonen aan dat PaD-TS de gemiddelde CC-verdelingsverschuiving tussen echte en synthetische gegevens met 5,9x kan verbeteren, terwijl het een prestatie vergelijkbaar met state-of-the-art modellen behoudt op het niveau van individuele authenticiteit.
English
Diffusion models have shown promising ability in generating high-quality time
series (TS) data. Despite the initial success, existing works mostly focus on
the authenticity of data at the individual level, but pay less attention to
preserving the population-level properties on the entire dataset. Such
population-level properties include value distributions for each dimension and
distributions of certain functional dependencies (e.g., cross-correlation, CC)
between different dimensions. For instance, when generating house energy
consumption TS data, the value distributions of the outside temperature and the
kitchen temperature should be preserved, as well as the distribution of CC
between them. Preserving such TS population-level properties is critical in
maintaining the statistical insights of the datasets, mitigating model bias,
and augmenting downstream tasks like TS prediction. Yet, it is often overlooked
by existing models. Hence, data generated by existing models often bear
distribution shifts from the original data. We propose Population-aware
Diffusion for Time Series (PaD-TS), a new TS generation model that better
preserves the population-level properties. The key novelties of PaD-TS include
1) a new training method explicitly incorporating TS population-level property
preservation, and 2) a new dual-channel encoder model architecture that better
captures the TS data structure. Empirical results in major benchmark datasets
show that PaD-TS can improve the average CC distribution shift score between
real and synthetic data by 5.9x while maintaining a performance comparable to
state-of-the-art models on individual-level authenticity.Summary
AI-Generated Summary