VisionTS: Visuelle Maskierte Autoencoder sind kostenlose Zero-Shot Zeitreihen-Prognosen.
VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters
August 30, 2024
Autoren: Mouxiang Chen, Lefei Shen, Zhuo Li, Xiaoyun Joy Wang, Jianling Sun, Chenghao Liu
cs.AI
Zusammenfassung
Grundlagenmodelle haben sich als vielversprechender Ansatz in der Prognose von Zeitreihen (TSF) herausgestellt. Bestehende Ansätze feinen-tunen entweder große Sprachmodelle (LLMs) oder erstellen umfangreiche Zeitreihendatensätze, um TSF-Grundlagenmodelle zu entwickeln. Diese Methoden stehen jedoch vor Herausforderungen aufgrund der starken domänenübergreifenden Lücke oder der domänenspezifischen Heterogenität. In diesem Paper erkunden wir einen neuen Weg, um ein TSF-Grundlagenmodell aus reichen und qualitativ hochwertigen natürlichen Bildern aufzubauen, basierend auf den intrinsischen Ähnlichkeiten zwischen Bildern und Zeitreihen. Um die Lücke zwischen den beiden Domänen zu überbrücken, formulieren wir die TSF-Aufgabe als Bildrekonstruktionsaufgabe um, die weiterhin von einem visuellen Maskenautoencoder (MAE) verarbeitet wird, der selbstüberwacht auf dem ImageNet-Datensatz vorab trainiert wurde. Überraschenderweise konnte das vorgeschlagene VisionTS ohne weitere Anpassung im Zeitreihenbereich eine überlegene Null-Schuss-Prognoseleistung im Vergleich zu bestehenden TSF-Grundlagenmodellen erzielen. Mit minimalem Feintuning konnte VisionTS die Prognose weiter verbessern und in den meisten Fällen eine Spitzenleistung erzielen. Diese Ergebnisse legen nahe, dass visuelle Modelle ein kostenloser Gewinn für TSF sein könnten und betonen das Potenzial für zukünftige domänenübergreifende Forschung zwischen Computer Vision und TSF. Unser Code ist öffentlich verfügbar unter https://github.com/Keytoyze/VisionTS.
English
Foundation models have emerged as a promising approach in time series
forecasting (TSF). Existing approaches either fine-tune large language models
(LLMs) or build large-scale time-series datasets to develop TSF foundation
models. However, these methods face challenges due to the severe cross-domain
gap or in-domain heterogeneity. In this paper, we explore a new road to
building a TSF foundation model from rich and high-quality natural images,
based on the intrinsic similarities between images and time series. To bridge
the gap between the two domains, we reformulate the TSF task as an image
reconstruction task, which is further processed by a visual masked autoencoder
(MAE) self-supervised pre-trained on the ImageNet dataset. Surprisingly,
without further adaptation in the time-series domain, the proposed VisionTS
could achieve superior zero-shot forecasting performance compared to existing
TSF foundation models. With minimal fine-tuning, VisionTS could further improve
the forecasting and achieve state-of-the-art performance in most cases. These
findings suggest that visual models could be a free lunch for TSF and highlight
the potential for future cross-domain research between computer vision and TSF.
Our code is publicly available at https://github.com/Keytoyze/VisionTS.Summary
AI-Generated Summary