Cette fois, c'est différent : une perspective d'observabilité sur les modèles de fondation pour séries temporelles
This Time is Different: An Observability Perspective on Time Series Foundation Models
May 20, 2025
Auteurs: Ben Cohen, Emaad Khwaja, Youssef Doubli, Salahidine Lemaachi, Chris Lettieri, Charles Masson, Hugo Miccinilli, Elise Ramé, Qiqi Ren, Afshin Rostamizadeh, Jean Ogier du Terrail, Anna-Monica Toon, Kan Wang, Stephan Xie, David Asker, Ameet Talwalkar, Othmane Abou-Amal
cs.AI
Résumé
Nous présentons Toto, un modèle de base pour la prévision de séries temporelles comptant 151 millions de paramètres. Toto utilise une architecture moderne de type décodeur uniquement, enrichie d'innovations architecturales conçues pour répondre aux défis spécifiques rencontrés dans les données de séries temporelles multivariées d'observabilité. Le corpus de pré-entraînement de Toto est un mélange de données d'observabilité, de jeux de données ouverts et de données synthétiques, et est 4 à 10 fois plus volumineux que ceux des principaux modèles de base pour les séries temporelles. Par ailleurs, nous introduisons BOOM, un benchmark à grande échelle comprenant 350 millions d'observations réparties sur 2 807 séries temporelles issues du monde réel. Pour Toto et BOOM, les données d'observabilité proviennent exclusivement de la télémétrie et des métriques internes d'observabilité de Datadog. Des évaluations approfondies démontrent que Toto atteint des performances de pointe à la fois sur BOOM et sur les benchmarks établis de prévision de séries temporelles à usage général. Les poids du modèle Toto, son code d'inférence, ses scripts d'évaluation, ainsi que les données et le code d'évaluation de BOOM, sont tous disponibles en open source sous la licence Apache 2.0 aux adresses suivantes : https://huggingface.co/Datadog/Toto-Open-Base-1.0 et https://github.com/DataDog/toto.
English
We introduce Toto, a time series forecasting foundation model with 151
million parameters. Toto uses a modern decoder-only architecture coupled with
architectural innovations designed to account for specific challenges found in
multivariate observability time series data. Toto's pre-training corpus is a
mixture of observability data, open datasets, and synthetic data, and is
4-10times larger than those of leading time series foundation models.
Additionally, we introduce BOOM, a large-scale benchmark consisting of 350
million observations across 2,807 real-world time series. For both Toto and
BOOM, we source observability data exclusively from Datadog's own telemetry and
internal observability metrics. Extensive evaluations demonstrate that Toto
achieves state-of-the-art performance on both BOOM and on established general
purpose time series forecasting benchmarks. Toto's model weights, inference
code, and evaluation scripts, as well as BOOM's data and evaluation code, are
all available as open source under the Apache 2.0 License available at
https://huggingface.co/Datadog/Toto-Open-Base-1.0 and
https://github.com/DataDog/toto.Summary
AI-Generated Summary