ChatPaper.aiChatPaper

VisionTS: Autoencoders Visuais Mascarejados São Previsores de Séries Temporais Zero-Shot de Almoço Grátis

VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters

August 30, 2024
Autores: Mouxiang Chen, Lefei Shen, Zhuo Li, Xiaoyun Joy Wang, Jianling Sun, Chenghao Liu
cs.AI

Resumo

Os modelos fundamentais surgiram como uma abordagem promissora na previsão de séries temporais (PST). As abordagens existentes envolvem o ajuste fino de grandes modelos de linguagem (LLMs) ou a construção de conjuntos de dados de séries temporais em larga escala para desenvolver modelos fundamentais de PST. No entanto, esses métodos enfrentam desafios devido à grande lacuna entre domínios ou à heterogeneidade dentro do domínio. Neste artigo, exploramos um novo caminho para construir um modelo fundamental de PST a partir de imagens naturais ricas e de alta qualidade, com base nas similaridades intrínsecas entre imagens e séries temporais. Para superar a lacuna entre os dois domínios, reformulamos a tarefa de PST como uma tarefa de reconstrução de imagem, que é posteriormente processada por um autoencoder visual mascarado (MAE) pré-treinado de forma auto-supervisionada no conjunto de dados ImageNet. Surpreendentemente, sem mais adaptações no domínio de séries temporais, o VisionTS proposto conseguiu alcançar um desempenho superior na previsão de zero-shot em comparação com os modelos fundamentais de PST existentes. Com um ajuste fino mínimo, o VisionTS pôde melhorar ainda mais a previsão e alcançar um desempenho de ponta na maioria dos casos. Essas descobertas sugerem que os modelos visuais poderiam representar uma solução fácil para PST e destacam o potencial para futuras pesquisas interdisciplinares entre visão computacional e PST. Nosso código está publicamente disponível em https://github.com/Keytoyze/VisionTS.
English
Foundation models have emerged as a promising approach in time series forecasting (TSF). Existing approaches either fine-tune large language models (LLMs) or build large-scale time-series datasets to develop TSF foundation models. However, these methods face challenges due to the severe cross-domain gap or in-domain heterogeneity. In this paper, we explore a new road to building a TSF foundation model from rich and high-quality natural images, based on the intrinsic similarities between images and time series. To bridge the gap between the two domains, we reformulate the TSF task as an image reconstruction task, which is further processed by a visual masked autoencoder (MAE) self-supervised pre-trained on the ImageNet dataset. Surprisingly, without further adaptation in the time-series domain, the proposed VisionTS could achieve superior zero-shot forecasting performance compared to existing TSF foundation models. With minimal fine-tuning, VisionTS could further improve the forecasting and achieve state-of-the-art performance in most cases. These findings suggest that visual models could be a free lunch for TSF and highlight the potential for future cross-domain research between computer vision and TSF. Our code is publicly available at https://github.com/Keytoyze/VisionTS.

Summary

AI-Generated Summary

PDF402November 16, 2024