ChatPaper.aiChatPaper

Difusión Consciente de la Población para la Generación de Series Temporales

Population Aware Diffusion for Time Series Generation

January 1, 2025
Autores: Yang Li, Han Meng, Zhenyu Bi, Ingolv T. Urnes, Haipeng Chen
cs.AI

Resumen

Los modelos de difusión han demostrado una capacidad prometedora en la generación de datos de series temporales (TS) de alta calidad. A pesar del éxito inicial, los trabajos existentes se centran principalmente en la autenticidad de los datos a nivel individual, pero prestan menos atención a la preservación de las propiedades a nivel de población en todo el conjunto de datos. Estas propiedades a nivel de población incluyen las distribuciones de valores para cada dimensión y las distribuciones de ciertas dependencias funcionales (por ejemplo, la correlación cruzada, CC) entre diferentes dimensiones. Por ejemplo, al generar datos de TS de consumo de energía de una casa, se deben preservar las distribuciones de valores de la temperatura exterior y la temperatura de la cocina, así como la distribución de CC entre ellas. Preservar estas propiedades a nivel de población de las TS es fundamental para mantener las percepciones estadísticas de los conjuntos de datos, mitigar el sesgo del modelo y mejorar las tareas posteriores como la predicción de TS. Sin embargo, a menudo es pasado por alto por los modelos existentes. Por lo tanto, los datos generados por los modelos existentes a menudo presentan cambios en las distribuciones respecto a los datos originales. Proponemos Difusión Consciente de la Población para Series Temporales (PaD-TS), un nuevo modelo de generación de TS que preserva mejor las propiedades a nivel de población. Las principales novedades de PaD-TS incluyen 1) un nuevo método de entrenamiento que incorpora explícitamente la preservación de las propiedades a nivel de población de TS, y 2) una nueva arquitectura de modelo de codificador de doble canal que captura mejor la estructura de los datos de TS. Los resultados empíricos en conjuntos de datos de referencia importantes muestran que PaD-TS puede mejorar el puntaje de cambio en la distribución de CC promedio entre datos reales y sintéticos en 5.9 veces, manteniendo un rendimiento comparable a los modelos de vanguardia en autenticidad a nivel individual.
English
Diffusion models have shown promising ability in generating high-quality time series (TS) data. Despite the initial success, existing works mostly focus on the authenticity of data at the individual level, but pay less attention to preserving the population-level properties on the entire dataset. Such population-level properties include value distributions for each dimension and distributions of certain functional dependencies (e.g., cross-correlation, CC) between different dimensions. For instance, when generating house energy consumption TS data, the value distributions of the outside temperature and the kitchen temperature should be preserved, as well as the distribution of CC between them. Preserving such TS population-level properties is critical in maintaining the statistical insights of the datasets, mitigating model bias, and augmenting downstream tasks like TS prediction. Yet, it is often overlooked by existing models. Hence, data generated by existing models often bear distribution shifts from the original data. We propose Population-aware Diffusion for Time Series (PaD-TS), a new TS generation model that better preserves the population-level properties. The key novelties of PaD-TS include 1) a new training method explicitly incorporating TS population-level property preservation, and 2) a new dual-channel encoder model architecture that better captures the TS data structure. Empirical results in major benchmark datasets show that PaD-TS can improve the average CC distribution shift score between real and synthetic data by 5.9x while maintaining a performance comparable to state-of-the-art models on individual-level authenticity.

Summary

AI-Generated Summary

PDF62January 3, 2025