Chronos: Aprendiendo el lenguaje de las series temporales
Chronos: Learning the Language of Time Series
March 12, 2024
Autores: Abdul Fatir Ansari, Lorenzo Stella, Caner Turkmen, Xiyuan Zhang, Pedro Mercado, Huibin Shen, Oleksandr Shchur, Syama Sundar Rangapuram, Sebastian Pineda Arango, Shubham Kapoor, Jasper Zschiegner, Danielle C. Maddix, Michael W. Mahoney, Kari Torkkola, Andrew Gordon Wilson, Michael Bohlke-Schneider, Yuyang Wang
cs.AI
Resumen
Presentamos Chronos, un marco simple pero efectivo para modelos probabilísticos de series temporales preentrenados. Chronos tokeniza los valores de las series temporales mediante escalado y cuantización en un vocabulario fijo, y entrena arquitecturas de modelos de lenguaje basados en transformadores sobre estas series temporales tokenizadas utilizando la pérdida de entropía cruzada. Preentrenamos modelos Chronos basados en la familia T5 (que van desde 20M hasta 710M parámetros) en una gran colección de conjuntos de datos disponibles públicamente, complementados por un conjunto de datos sintéticos que generamos mediante procesos gaussianos para mejorar la generalización. En un benchmark exhaustivo que consta de 42 conjuntos de datos, y que incluye tanto modelos locales clásicos como métodos de aprendizaje profundo, demostramos que los modelos Chronos: (a) superan significativamente a otros métodos en conjuntos de datos que formaron parte del corpus de entrenamiento; y (b) tienen un rendimiento comparable y ocasionalmente superior en nuevos conjuntos de datos en modo zero-shot, en comparación con métodos que fueron entrenados específicamente en ellos. Nuestros resultados muestran que los modelos Chronos pueden aprovechar datos de series temporales de diversos dominios para mejorar la precisión zero-shot en tareas de pronóstico no vistas, posicionando a los modelos preentrenados como una herramienta viable para simplificar enormemente los flujos de trabajo de pronóstico.
English
We introduce Chronos, a simple yet effective framework for pretrained
probabilistic time series models. Chronos tokenizes time series values using
scaling and quantization into a fixed vocabulary and trains existing
transformer-based language model architectures on these tokenized time series
via the cross-entropy loss. We pretrained Chronos models based on the T5 family
(ranging from 20M to 710M parameters) on a large collection of publicly
available datasets, complemented by a synthetic dataset that we generated via
Gaussian processes to improve generalization. In a comprehensive benchmark
consisting of 42 datasets, and comprising both classical local models and deep
learning methods, we show that Chronos models: (a) significantly outperform
other methods on datasets that were part of the training corpus; and (b) have
comparable and occasionally superior zero-shot performance on new datasets,
relative to methods that were trained specifically on them. Our results
demonstrate that Chronos models can leverage time series data from diverse
domains to improve zero-shot accuracy on unseen forecasting tasks, positioning
pretrained models as a viable tool to greatly simplify forecasting pipelines.Summary
AI-Generated Summary