VisionTS : Les autoencodeurs masqués visuels sont des prévisionnistes de séries temporelles zéro-shot gratuits.
VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters
August 30, 2024
Auteurs: Mouxiang Chen, Lefei Shen, Zhuo Li, Xiaoyun Joy Wang, Jianling Sun, Chenghao Liu
cs.AI
Résumé
Les modèles fondamentaux ont émergé comme une approche prometteuse dans la prévision de séries temporelles (PST). Les approches existantes consistent soit à affiner de grands modèles de langage (GML), soit à construire des ensembles de données de séries temporelles à grande échelle pour développer des modèles fondamentaux de PST. Cependant, ces méthodes sont confrontées à des défis en raison de l'écart sévère entre les domaines ou de l'hétérogénéité dans le domaine. Dans cet article, nous explorons une nouvelle voie pour construire un modèle fondamental de PST à partir d'images naturelles riches et de haute qualité, basée sur les similarités intrinsèques entre les images et les séries temporelles. Pour combler l'écart entre les deux domaines, nous reformulons la tâche de PST comme une tâche de reconstruction d'image, qui est ensuite traitée par un autoencodeur masqué visuel (MAE) pré-entraîné de manière auto-supervisée sur l'ensemble de données ImageNet. De manière surprenante, sans adaptation supplémentaire dans le domaine des séries temporelles, le VisionTS proposé a pu obtenir des performances de prévision supérieures en zéro-shot par rapport aux modèles fondamentaux de PST existants. Avec un ajustement minimal, le VisionTS a pu améliorer davantage la prévision et atteindre des performances de pointe dans la plupart des cas. Ces résultats suggèrent que les modèles visuels pourraient être une aubaine pour la PST et soulignent le potentiel de futures recherches inter-domaines entre la vision par ordinateur et la PST. Notre code est disponible publiquement sur https://github.com/Keytoyze/VisionTS.
English
Foundation models have emerged as a promising approach in time series
forecasting (TSF). Existing approaches either fine-tune large language models
(LLMs) or build large-scale time-series datasets to develop TSF foundation
models. However, these methods face challenges due to the severe cross-domain
gap or in-domain heterogeneity. In this paper, we explore a new road to
building a TSF foundation model from rich and high-quality natural images,
based on the intrinsic similarities between images and time series. To bridge
the gap between the two domains, we reformulate the TSF task as an image
reconstruction task, which is further processed by a visual masked autoencoder
(MAE) self-supervised pre-trained on the ImageNet dataset. Surprisingly,
without further adaptation in the time-series domain, the proposed VisionTS
could achieve superior zero-shot forecasting performance compared to existing
TSF foundation models. With minimal fine-tuning, VisionTS could further improve
the forecasting and achieve state-of-the-art performance in most cases. These
findings suggest that visual models could be a free lunch for TSF and highlight
the potential for future cross-domain research between computer vision and TSF.
Our code is publicly available at https://github.com/Keytoyze/VisionTS.Summary
AI-Generated Summary