ChatPaper.aiChatPaper

VisionTS: Visuele Gemaskeerde Autoencoders Zijn Gratis Zero-Shot Tijdreeksvoorspellers

VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters

August 30, 2024
Auteurs: Mouxiang Chen, Lefei Shen, Zhuo Li, Xiaoyun Joy Wang, Jianling Sun, Chenghao Liu
cs.AI

Samenvatting

Foundation models zijn naar voren gekomen als een veelbelovende aanpak in tijdreeksvoorspelling (TSF). Bestaande methoden passen ofwel grote taalmmodellen (LLMs) aan of bouwen grootschalige tijdreeksdatasets om TSF-foundationmodellen te ontwikkelen. Deze methoden worden echter geconfronteerd met uitdagingen vanwege de grote kloof tussen domeinen of de heterogeniteit binnen een domein. In dit artikel verkennen we een nieuwe weg om een TSF-foundationmodel te bouwen vanuit rijke en hoogwaardige natuurlijke afbeeldingen, gebaseerd op de intrinsieke overeenkomsten tussen afbeeldingen en tijdreeksen. Om de kloof tussen de twee domeinen te overbruggen, herformuleren we de TSF-taak als een beeldreconstructietaak, die vervolgens wordt verwerkt door een visuele masked autoencoder (MAE) die zelfvoorzienend is voorgetraind op de ImageNet-dataset. Verrassend genoeg kan de voorgestelde VisionTS, zonder verdere aanpassing in het tijdreeksdomein, superieure zero-shot voorspellingsprestaties behalen in vergelijking met bestaande TSF-foundationmodellen. Met minimale fine-tuning kan VisionTS de voorspelling verder verbeteren en in de meeste gevallen state-of-the-art prestaties bereiken. Deze bevindingen suggereren dat visuele modellen een 'gratis lunch' kunnen zijn voor TSF en benadrukken het potentieel voor toekomstig cross-domeinonderzoek tussen computervisie en TSF. Onze code is openbaar beschikbaar op https://github.com/Keytoyze/VisionTS.
English
Foundation models have emerged as a promising approach in time series forecasting (TSF). Existing approaches either fine-tune large language models (LLMs) or build large-scale time-series datasets to develop TSF foundation models. However, these methods face challenges due to the severe cross-domain gap or in-domain heterogeneity. In this paper, we explore a new road to building a TSF foundation model from rich and high-quality natural images, based on the intrinsic similarities between images and time series. To bridge the gap between the two domains, we reformulate the TSF task as an image reconstruction task, which is further processed by a visual masked autoencoder (MAE) self-supervised pre-trained on the ImageNet dataset. Surprisingly, without further adaptation in the time-series domain, the proposed VisionTS could achieve superior zero-shot forecasting performance compared to existing TSF foundation models. With minimal fine-tuning, VisionTS could further improve the forecasting and achieve state-of-the-art performance in most cases. These findings suggest that visual models could be a free lunch for TSF and highlight the potential for future cross-domain research between computer vision and TSF. Our code is publicly available at https://github.com/Keytoyze/VisionTS.

Summary

AI-Generated Summary

PDF402November 16, 2024