VisionTS: Gli Autoencoder Mascherati Visivi Sono Previsti Senza Zero-Shot Pranzo Gratuito per le Serie Temporali
VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters
August 30, 2024
Autori: Mouxiang Chen, Lefei Shen, Zhuo Li, Xiaoyun Joy Wang, Jianling Sun, Chenghao Liu
cs.AI
Abstract
I modelli fondamentali sono emersi come un approccio promettente nella previsione delle serie temporali (TSF). Gli approcci esistenti consistono nel raffinare i grandi modelli linguistici (LLM) o nel costruire set di dati su larga scala di serie temporali per sviluppare modelli fondamentali di TSF. Tuttavia, questi metodi affrontano sfide a causa del grave divario tra domini o dell'eterogeneità all'interno del dominio. In questo articolo, esploriamo una nuova strada per costruire un modello fondamentale di TSF da immagini naturali ricche e di alta qualità, basata sulle similitudini intrinseche tra immagini e serie temporali. Per colmare il divario tra i due domini, riformuliamo il compito di TSF come un compito di ricostruzione di immagini, che viene ulteriormente elaborato da un autoencoder visivo mascherato (MAE) preaddestrato in modo auto-supervisionato sul dataset ImageNet. Sorprendentemente, senza ulteriore adattamento nel dominio delle serie temporali, il VisionTS proposto potrebbe raggiungere prestazioni di previsione superiori a zero rispetto ai modelli fondamentali di TSF esistenti. Con una minima messa a punto, VisionTS potrebbe migliorare ulteriormente la previsione e raggiungere prestazioni all'avanguardia nella maggior parte dei casi. Questi risultati suggeriscono che i modelli visivi potrebbero rappresentare un vantaggio per la TSF e mettono in evidenza il potenziale per futura ricerca inter-dominio tra computer vision e TSF. Il nostro codice è disponibile pubblicamente su https://github.com/Keytoyze/VisionTS.
English
Foundation models have emerged as a promising approach in time series
forecasting (TSF). Existing approaches either fine-tune large language models
(LLMs) or build large-scale time-series datasets to develop TSF foundation
models. However, these methods face challenges due to the severe cross-domain
gap or in-domain heterogeneity. In this paper, we explore a new road to
building a TSF foundation model from rich and high-quality natural images,
based on the intrinsic similarities between images and time series. To bridge
the gap between the two domains, we reformulate the TSF task as an image
reconstruction task, which is further processed by a visual masked autoencoder
(MAE) self-supervised pre-trained on the ImageNet dataset. Surprisingly,
without further adaptation in the time-series domain, the proposed VisionTS
could achieve superior zero-shot forecasting performance compared to existing
TSF foundation models. With minimal fine-tuning, VisionTS could further improve
the forecasting and achieve state-of-the-art performance in most cases. These
findings suggest that visual models could be a free lunch for TSF and highlight
the potential for future cross-domain research between computer vision and TSF.
Our code is publicly available at https://github.com/Keytoyze/VisionTS.