ChatPaper.aiChatPaper

VisionTS: Los Autoencoders Visuales Enmascarados son Pronosticadores de Series Temporales de Cero Disparo Gratis

VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters

August 30, 2024
Autores: Mouxiang Chen, Lefei Shen, Zhuo Li, Xiaoyun Joy Wang, Jianling Sun, Chenghao Liu
cs.AI

Resumen

Los modelos base han surgido como un enfoque prometedor en la predicción de series temporales (PST). Los enfoques existentes consisten en ajustar modelos de lenguaje grandes (MLG) o construir conjuntos de datos de series temporales a gran escala para desarrollar modelos base de PST. Sin embargo, estos métodos enfrentan desafíos debido a la brecha severa entre dominios o a la heterogeneidad dentro del dominio. En este documento, exploramos un nuevo camino para construir un modelo base de PST a partir de imágenes naturales ricas y de alta calidad, basado en las similitudes intrínsecas entre imágenes y series temporales. Para cerrar la brecha entre los dos dominios, reformulamos la tarea de PST como una tarea de reconstrucción de imágenes, la cual es procesada por un autoencoder visual enmascarado (MAE) pre-entrenado de forma auto-supervisada en el conjunto de datos ImageNet. Sorprendentemente, sin más adaptación en el dominio de series temporales, el VisionTS propuesto logró un rendimiento superior en la predicción de cero disparos en comparación con los modelos base de PST existentes. Con un ajuste mínimo, VisionTS pudo mejorar aún más la predicción y lograr un rendimiento de vanguardia en la mayoría de los casos. Estos hallazgos sugieren que los modelos visuales podrían ser un almuerzo gratis para PST y resaltan el potencial para futuras investigaciones interdisciplinarias entre visión por computadora y PST. Nuestro código está disponible públicamente en https://github.com/Keytoyze/VisionTS.
English
Foundation models have emerged as a promising approach in time series forecasting (TSF). Existing approaches either fine-tune large language models (LLMs) or build large-scale time-series datasets to develop TSF foundation models. However, these methods face challenges due to the severe cross-domain gap or in-domain heterogeneity. In this paper, we explore a new road to building a TSF foundation model from rich and high-quality natural images, based on the intrinsic similarities between images and time series. To bridge the gap between the two domains, we reformulate the TSF task as an image reconstruction task, which is further processed by a visual masked autoencoder (MAE) self-supervised pre-trained on the ImageNet dataset. Surprisingly, without further adaptation in the time-series domain, the proposed VisionTS could achieve superior zero-shot forecasting performance compared to existing TSF foundation models. With minimal fine-tuning, VisionTS could further improve the forecasting and achieve state-of-the-art performance in most cases. These findings suggest that visual models could be a free lunch for TSF and highlight the potential for future cross-domain research between computer vision and TSF. Our code is publicly available at https://github.com/Keytoyze/VisionTS.

Summary

AI-Generated Summary

PDF402November 16, 2024