Диффузия, осведомленная о популяции, для генерации временных рядов
Population Aware Diffusion for Time Series Generation
January 1, 2025
Авторы: Yang Li, Han Meng, Zhenyu Bi, Ingolv T. Urnes, Haipeng Chen
cs.AI
Аннотация
Модели диффузии показали многообещающую способность в генерации высококачественных временных рядов (TS) данных. Несмотря на первоначальный успех, существующие работы в основном сосредотачиваются на подлинности данных на индивидуальном уровне, но уделяют меньше внимания сохранению свойств на уровне популяции для всего набора данных. Такие свойства на уровне популяции включают распределения значений для каждого измерения и распределения определенных функциональных зависимостей (например, кросс-корреляция, CC) между различными измерениями. Например, при генерации временных рядов данных о потреблении энергии в доме должны сохраняться распределения значений внешней температуры и температуры на кухне, а также распределение CC между ними. Сохранение таких свойств временных рядов на уровне популяции критично для поддержания статистических исследований наборов данных, смягчения смещения модели и улучшения последующих задач, таких как прогнозирование временных рядов. Тем не менее, это часто игнорируется существующими моделями. Поэтому данные, сгенерированные существующими моделями, часто имеют сдвиги распределения относительно исходных данных. Мы предлагаем модель Генерации временных рядов, учитывающую популяцию (PaD-TS), новую модель генерации временных рядов, которая лучше сохраняет свойства на уровне популяции. Основные новшества PaD-TS включают 1) новый метод обучения, явно включающий сохранение свойств временных рядов на уровне популяции, и 2) новую архитектуру модели двухканального энкодера, которая лучше улавливает структуру данных временных рядов. Эмпирические результаты на основных наборах данных показывают, что PaD-TS может улучшить средний показатель сдвига распределения CC между реальными и синтетическими данными в 5,9 раз, сохраняя при этом производительность, сравнимую с передовыми моделями по подлинности на индивидуальном уровне.
English
Diffusion models have shown promising ability in generating high-quality time
series (TS) data. Despite the initial success, existing works mostly focus on
the authenticity of data at the individual level, but pay less attention to
preserving the population-level properties on the entire dataset. Such
population-level properties include value distributions for each dimension and
distributions of certain functional dependencies (e.g., cross-correlation, CC)
between different dimensions. For instance, when generating house energy
consumption TS data, the value distributions of the outside temperature and the
kitchen temperature should be preserved, as well as the distribution of CC
between them. Preserving such TS population-level properties is critical in
maintaining the statistical insights of the datasets, mitigating model bias,
and augmenting downstream tasks like TS prediction. Yet, it is often overlooked
by existing models. Hence, data generated by existing models often bear
distribution shifts from the original data. We propose Population-aware
Diffusion for Time Series (PaD-TS), a new TS generation model that better
preserves the population-level properties. The key novelties of PaD-TS include
1) a new training method explicitly incorporating TS population-level property
preservation, and 2) a new dual-channel encoder model architecture that better
captures the TS data structure. Empirical results in major benchmark datasets
show that PaD-TS can improve the average CC distribution shift score between
real and synthetic data by 5.9x while maintaining a performance comparable to
state-of-the-art models on individual-level authenticity.Summary
AI-Generated Summary