ChatPaper.aiChatPaper

Deze keer is het anders: Een observatieperspectief op tijdreeksfundamentmodellen

This Time is Different: An Observability Perspective on Time Series Foundation Models

May 20, 2025
Auteurs: Ben Cohen, Emaad Khwaja, Youssef Doubli, Salahidine Lemaachi, Chris Lettieri, Charles Masson, Hugo Miccinilli, Elise Ramé, Qiqi Ren, Afshin Rostamizadeh, Jean Ogier du Terrail, Anna-Monica Toon, Kan Wang, Stephan Xie, David Asker, Ameet Talwalkar, Othmane Abou-Amal
cs.AI

Samenvatting

We introduceren Toto, een foundation model voor tijdreeksvoorspelling met 151 miljoen parameters. Toto maakt gebruik van een moderne decoder-only architectuur, gecombineerd met architectonische innovaties die zijn ontworpen om specifieke uitdagingen in multivariate observability tijdreeksdata aan te pakken. Het pre-trainingscorpus van Toto bestaat uit een mix van observability data, open datasets en synthetische data, en is 4-10 keer groter dan die van toonaangevende tijdreeks foundation modellen. Daarnaast introduceren we BOOM, een grootschalige benchmark bestaande uit 350 miljoen observaties over 2.807 real-world tijdreeksen. Voor zowel Toto als BOOM halen we observability data uitsluitend uit Datadog's eigen telemetrie en interne observability metrieken. Uitgebreide evaluaties tonen aan dat Toto state-of-the-art prestaties behaalt op zowel BOOM als op gevestigde algemene tijdreeksvoorspellingsbenchmarks. De modelgewichten, inferentiecode en evaluatiescripts van Toto, evenals de data en evaluatiecode van BOOM, zijn allemaal beschikbaar als open source onder de Apache 2.0 Licentie, te vinden op https://huggingface.co/Datadog/Toto-Open-Base-1.0 en https://github.com/DataDog/toto.
English
We introduce Toto, a time series forecasting foundation model with 151 million parameters. Toto uses a modern decoder-only architecture coupled with architectural innovations designed to account for specific challenges found in multivariate observability time series data. Toto's pre-training corpus is a mixture of observability data, open datasets, and synthetic data, and is 4-10times larger than those of leading time series foundation models. Additionally, we introduce BOOM, a large-scale benchmark consisting of 350 million observations across 2,807 real-world time series. For both Toto and BOOM, we source observability data exclusively from Datadog's own telemetry and internal observability metrics. Extensive evaluations demonstrate that Toto achieves state-of-the-art performance on both BOOM and on established general purpose time series forecasting benchmarks. Toto's model weights, inference code, and evaluation scripts, as well as BOOM's data and evaluation code, are all available as open source under the Apache 2.0 License available at https://huggingface.co/Datadog/Toto-Open-Base-1.0 and https://github.com/DataDog/toto.
PDF403May 22, 2025