ChatPaper.aiChatPaper

На этот раз всё иначе: взгляд на временные ряды через призму наблюдаемости в моделях-основах

This Time is Different: An Observability Perspective on Time Series Foundation Models

May 20, 2025
Авторы: Ben Cohen, Emaad Khwaja, Youssef Doubli, Salahidine Lemaachi, Chris Lettieri, Charles Masson, Hugo Miccinilli, Elise Ramé, Qiqi Ren, Afshin Rostamizadeh, Jean Ogier du Terrail, Anna-Monica Toon, Kan Wang, Stephan Xie, David Asker, Ameet Talwalkar, Othmane Abou-Amal
cs.AI

Аннотация

Мы представляем Toto, базовую модель для прогнозирования временных рядов с 151 миллионом параметров. Toto использует современную архитектуру, состоящую только из декодера, дополненную инновационными решениями, разработанными для учета специфических проблем, характерных для многомерных данных временных рядов в области наблюдаемости. Корпус предварительного обучения Toto включает в себя данные наблюдаемости, открытые наборы данных и синтетические данные, и в 4-10 раз превышает объемы, используемые в ведущих базовых моделях для временных рядов. Кроме того, мы представляем BOOM, крупномасштабный бенчмарк, состоящий из 350 миллионов наблюдений по 2 807 реальным временным рядам. Для Toto и BOOM данные наблюдаемости получены исключительно из телеметрии и внутренних метрик наблюдаемости компании Datadog. Многочисленные оценки показывают, что Toto демонстрирует наилучшие результаты как на BOOM, так и на общепринятых бенчмарках для прогнозирования временных рядов общего назначения. Веса модели Toto, код для вывода и скрипты для оценки, а также данные и код для оценки BOOM доступны в открытом доступе под лицензией Apache 2.0 по адресам https://huggingface.co/Datadog/Toto-Open-Base-1.0 и https://github.com/DataDog/toto.
English
We introduce Toto, a time series forecasting foundation model with 151 million parameters. Toto uses a modern decoder-only architecture coupled with architectural innovations designed to account for specific challenges found in multivariate observability time series data. Toto's pre-training corpus is a mixture of observability data, open datasets, and synthetic data, and is 4-10times larger than those of leading time series foundation models. Additionally, we introduce BOOM, a large-scale benchmark consisting of 350 million observations across 2,807 real-world time series. For both Toto and BOOM, we source observability data exclusively from Datadog's own telemetry and internal observability metrics. Extensive evaluations demonstrate that Toto achieves state-of-the-art performance on both BOOM and on established general purpose time series forecasting benchmarks. Toto's model weights, inference code, and evaluation scripts, as well as BOOM's data and evaluation code, are all available as open source under the Apache 2.0 License available at https://huggingface.co/Datadog/Toto-Open-Base-1.0 and https://github.com/DataDog/toto.

Summary

AI-Generated Summary

PDF323May 22, 2025