Diese Zeit ist anders: Eine Beobachtbarkeitsperspektive auf Zeitreihen-Foundation-Modelle
This Time is Different: An Observability Perspective on Time Series Foundation Models
May 20, 2025
Autoren: Ben Cohen, Emaad Khwaja, Youssef Doubli, Salahidine Lemaachi, Chris Lettieri, Charles Masson, Hugo Miccinilli, Elise Ramé, Qiqi Ren, Afshin Rostamizadeh, Jean Ogier du Terrail, Anna-Monica Toon, Kan Wang, Stephan Xie, David Asker, Ameet Talwalkar, Othmane Abou-Amal
cs.AI
Zusammenfassung
Wir stellen Toto vor, ein Foundation-Modell für Zeitreihenvorhersagen mit 151 Millionen Parametern. Toto verwendet eine moderne Decoder-only-Architektur, die durch architektonische Innovationen ergänzt wird, um spezifische Herausforderungen in multivariaten Beobachtbarkeits-Zeitreihendaten zu bewältigen. Das Pre-Training-Korpus von Toto besteht aus einer Mischung von Beobachtbarkeitsdaten, offenen Datensätzen und synthetischen Daten und ist 4-10 Mal größer als das führender Zeitreihen-Foundation-Modelle. Zusätzlich führen wir BOOM ein, einen groß angelegten Benchmark, der 350 Millionen Beobachtungen über 2.807 reale Zeitreihen umfasst. Sowohl für Toto als auch für BOOM stammen die Beobachtbarkeitsdaten ausschließlich aus der Telemetrie und internen Beobachtbarkeitsmetriken von Datadog. Umfangreiche Evaluierungen zeigen, dass Toto sowohl auf BOOM als auch auf etablierten allgemeinen Zeitreihenvorhersage-Benchmarks state-of-the-art-Leistungen erzielt. Die Modellgewichte, Inferenz-Codes und Evaluierungsskripte von Toto sowie die Daten und Evaluierungscodes von BOOM sind alle als Open Source unter der Apache 2.0-Lizenz verfügbar unter https://huggingface.co/Datadog/Toto-Open-Base-1.0 und https://github.com/DataDog/toto.
English
We introduce Toto, a time series forecasting foundation model with 151
million parameters. Toto uses a modern decoder-only architecture coupled with
architectural innovations designed to account for specific challenges found in
multivariate observability time series data. Toto's pre-training corpus is a
mixture of observability data, open datasets, and synthetic data, and is
4-10times larger than those of leading time series foundation models.
Additionally, we introduce BOOM, a large-scale benchmark consisting of 350
million observations across 2,807 real-world time series. For both Toto and
BOOM, we source observability data exclusively from Datadog's own telemetry and
internal observability metrics. Extensive evaluations demonstrate that Toto
achieves state-of-the-art performance on both BOOM and on established general
purpose time series forecasting benchmarks. Toto's model weights, inference
code, and evaluation scripts, as well as BOOM's data and evaluation code, are
all available as open source under the Apache 2.0 License available at
https://huggingface.co/Datadog/Toto-Open-Base-1.0 and
https://github.com/DataDog/toto.Summary
AI-Generated Summary