ChatPaper.aiChatPaper

Cette fois, c'est différent : une perspective d'observabilité sur les modèles de fondation pour séries temporelles

This Time is Different: An Observability Perspective on Time Series Foundation Models

May 20, 2025
Auteurs: Ben Cohen, Emaad Khwaja, Youssef Doubli, Salahidine Lemaachi, Chris Lettieri, Charles Masson, Hugo Miccinilli, Elise Ramé, Qiqi Ren, Afshin Rostamizadeh, Jean Ogier du Terrail, Anna-Monica Toon, Kan Wang, Stephan Xie, David Asker, Ameet Talwalkar, Othmane Abou-Amal
cs.AI

Résumé

Nous présentons Toto, un modèle de base pour la prévision de séries temporelles comptant 151 millions de paramètres. Toto utilise une architecture moderne de type décodeur uniquement, enrichie d'innovations architecturales conçues pour répondre aux défis spécifiques rencontrés dans les données de séries temporelles multivariées d'observabilité. Le corpus de pré-entraînement de Toto est un mélange de données d'observabilité, de jeux de données ouverts et de données synthétiques, et est 4 à 10 fois plus volumineux que ceux des principaux modèles de base pour les séries temporelles. Par ailleurs, nous introduisons BOOM, un benchmark à grande échelle comprenant 350 millions d'observations réparties sur 2 807 séries temporelles issues du monde réel. Pour Toto et BOOM, les données d'observabilité proviennent exclusivement de la télémétrie et des métriques internes d'observabilité de Datadog. Des évaluations approfondies démontrent que Toto atteint des performances de pointe à la fois sur BOOM et sur les benchmarks établis de prévision de séries temporelles à usage général. Les poids du modèle Toto, son code d'inférence, ses scripts d'évaluation, ainsi que les données et le code d'évaluation de BOOM, sont tous disponibles en open source sous la licence Apache 2.0 aux adresses suivantes : https://huggingface.co/Datadog/Toto-Open-Base-1.0 et https://github.com/DataDog/toto.
English
We introduce Toto, a time series forecasting foundation model with 151 million parameters. Toto uses a modern decoder-only architecture coupled with architectural innovations designed to account for specific challenges found in multivariate observability time series data. Toto's pre-training corpus is a mixture of observability data, open datasets, and synthetic data, and is 4-10times larger than those of leading time series foundation models. Additionally, we introduce BOOM, a large-scale benchmark consisting of 350 million observations across 2,807 real-world time series. For both Toto and BOOM, we source observability data exclusively from Datadog's own telemetry and internal observability metrics. Extensive evaluations demonstrate that Toto achieves state-of-the-art performance on both BOOM and on established general purpose time series forecasting benchmarks. Toto's model weights, inference code, and evaluation scripts, as well as BOOM's data and evaluation code, are all available as open source under the Apache 2.0 License available at https://huggingface.co/Datadog/Toto-Open-Base-1.0 and https://github.com/DataDog/toto.

Summary

AI-Generated Summary

PDF323May 22, 2025