ChatPaper.aiChatPaper

Esta vez es diferente: Una perspectiva de observabilidad sobre los modelos fundacionales de series temporales

This Time is Different: An Observability Perspective on Time Series Foundation Models

May 20, 2025
Autores: Ben Cohen, Emaad Khwaja, Youssef Doubli, Salahidine Lemaachi, Chris Lettieri, Charles Masson, Hugo Miccinilli, Elise Ramé, Qiqi Ren, Afshin Rostamizadeh, Jean Ogier du Terrail, Anna-Monica Toon, Kan Wang, Stephan Xie, David Asker, Ameet Talwalkar, Othmane Abou-Amal
cs.AI

Resumen

Presentamos Toto, un modelo base de pronóstico de series temporales con 151 millones de parámetros. Toto utiliza una arquitectura moderna de solo decodificador, combinada con innovaciones arquitectónicas diseñadas para abordar los desafíos específicos presentes en los datos de series temporales multivariadas de observabilidad. El corpus de preentrenamiento de Toto es una mezcla de datos de observabilidad, conjuntos de datos abiertos y datos sintéticos, y es de 4 a 10 veces más grande que el de los principales modelos base de series temporales. Además, presentamos BOOM, un benchmark a gran escala que consta de 350 millones de observaciones en 2,807 series temporales del mundo real. Tanto para Toto como para BOOM, obtenemos los datos de observabilidad exclusivamente de la telemetría y las métricas internas de observabilidad de Datadog. Evaluaciones exhaustivas demuestran que Toto alcanza un rendimiento de vanguardia tanto en BOOM como en benchmarks establecidos de pronóstico de series temporales de propósito general. Los pesos del modelo de Toto, el código de inferencia y los scripts de evaluación, así como los datos y el código de evaluación de BOOM, están disponibles como código abierto bajo la Licencia Apache 2.0 en https://huggingface.co/Datadog/Toto-Open-Base-1.0 y https://github.com/DataDog/toto.
English
We introduce Toto, a time series forecasting foundation model with 151 million parameters. Toto uses a modern decoder-only architecture coupled with architectural innovations designed to account for specific challenges found in multivariate observability time series data. Toto's pre-training corpus is a mixture of observability data, open datasets, and synthetic data, and is 4-10times larger than those of leading time series foundation models. Additionally, we introduce BOOM, a large-scale benchmark consisting of 350 million observations across 2,807 real-world time series. For both Toto and BOOM, we source observability data exclusively from Datadog's own telemetry and internal observability metrics. Extensive evaluations demonstrate that Toto achieves state-of-the-art performance on both BOOM and on established general purpose time series forecasting benchmarks. Toto's model weights, inference code, and evaluation scripts, as well as BOOM's data and evaluation code, are all available as open source under the Apache 2.0 License available at https://huggingface.co/Datadog/Toto-Open-Base-1.0 and https://github.com/DataDog/toto.

Summary

AI-Generated Summary

PDF323May 22, 2025