Chronos : Apprendre le langage des séries temporelles
Chronos: Learning the Language of Time Series
March 12, 2024
Auteurs: Abdul Fatir Ansari, Lorenzo Stella, Caner Turkmen, Xiyuan Zhang, Pedro Mercado, Huibin Shen, Oleksandr Shchur, Syama Sundar Rangapuram, Sebastian Pineda Arango, Shubham Kapoor, Jasper Zschiegner, Danielle C. Maddix, Michael W. Mahoney, Kari Torkkola, Andrew Gordon Wilson, Michael Bohlke-Schneider, Yuyang Wang
cs.AI
Résumé
Nous présentons Chronos, un cadre simple mais efficace pour les modèles probabilistes de séries temporelles pré-entraînés. Chronos tokenise les valeurs des séries temporelles en utilisant une mise à l'échelle et une quantification dans un vocabulaire fixe, et entraîne des architectures de modèles de langage basées sur les transformateurs sur ces séries temporelles tokenisées via la perte d'entropie croisée. Nous avons pré-entraîné des modèles Chronos basés sur la famille T5 (allant de 20M à 710M de paramètres) sur une vaste collection de jeux de données publiquement disponibles, complétés par un jeu de données synthétiques que nous avons généré via des processus gaussiens pour améliorer la généralisation. Dans un benchmark complet comprenant 42 jeux de données, et incluant à la fois des modèles locaux classiques et des méthodes d'apprentissage profond, nous montrons que les modèles Chronos : (a) surpassent significativement d'autres méthodes sur les jeux de données qui faisaient partie du corpus d'entraînement ; et (b) ont une performance en zero-shot comparable et parfois supérieure sur de nouveaux jeux de données, par rapport aux méthodes qui ont été spécifiquement entraînées sur eux. Nos résultats démontrent que les modèles Chronos peuvent exploiter des données de séries temporelles provenant de domaines divers pour améliorer la précision en zero-shot sur des tâches de prévision inédites, positionnant ainsi les modèles pré-entraînés comme un outil viable pour simplifier grandement les pipelines de prévision.
English
We introduce Chronos, a simple yet effective framework for pretrained
probabilistic time series models. Chronos tokenizes time series values using
scaling and quantization into a fixed vocabulary and trains existing
transformer-based language model architectures on these tokenized time series
via the cross-entropy loss. We pretrained Chronos models based on the T5 family
(ranging from 20M to 710M parameters) on a large collection of publicly
available datasets, complemented by a synthetic dataset that we generated via
Gaussian processes to improve generalization. In a comprehensive benchmark
consisting of 42 datasets, and comprising both classical local models and deep
learning methods, we show that Chronos models: (a) significantly outperform
other methods on datasets that were part of the training corpus; and (b) have
comparable and occasionally superior zero-shot performance on new datasets,
relative to methods that were trained specifically on them. Our results
demonstrate that Chronos models can leverage time series data from diverse
domains to improve zero-shot accuracy on unseen forecasting tasks, positioning
pretrained models as a viable tool to greatly simplify forecasting pipelines.Summary
AI-Generated Summary