ChatPaper.aiChatPaper

VisionTS: Визуальные маскированные автокодировщики - это бесплатные нулевые прогнозисты временных рядов.

VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters

August 30, 2024
Авторы: Mouxiang Chen, Lefei Shen, Zhuo Li, Xiaoyun Joy Wang, Jianling Sun, Chenghao Liu
cs.AI

Аннотация

Фундаментальные модели стали перспективным подходом в прогнозировании временных рядов (TSF). Существующие подходы либо донастраивают большие языковые модели (LLM), либо создают масштабные наборы данных временных рядов для разработки фундаментальных моделей TSF. Однако эти методы сталкиваются с вызовами из-за серьезного междоменного разрыва или гетерогенности внутри домена. В данной статье мы исследуем новый путь к созданию фундаментальной модели TSF из богатых и высококачественных естественных изображений, основанный на внутренних сходствах между изображениями и временными рядами. Для преодоления разрыва между двумя доменами мы переформулируем задачу TSF как задачу восстановления изображения, которая затем обрабатывается визуальным маскированным автоэнкодером (MAE), предварительно обученным на наборе данных ImageNet. Удивительно, без дополнительной адаптации в домене временных рядов предложенная VisionTS смогла достичь превосходной производительности прогнозирования с нулевой настройкой по сравнению с существующими фундаментальными моделями TSF. С минимальной донастройкой VisionTS могла дополнительно улучшить прогнозирование и достичь передовой производительности в большинстве случаев. Эти результаты подтверждают, что визуальные модели могут быть "бесплатным обедом" для TSF и подчеркивают потенциал для будущих исследований между доменами компьютерного зрения и TSF. Наш код общедоступен по адресу https://github.com/Keytoyze/VisionTS.
English
Foundation models have emerged as a promising approach in time series forecasting (TSF). Existing approaches either fine-tune large language models (LLMs) or build large-scale time-series datasets to develop TSF foundation models. However, these methods face challenges due to the severe cross-domain gap or in-domain heterogeneity. In this paper, we explore a new road to building a TSF foundation model from rich and high-quality natural images, based on the intrinsic similarities between images and time series. To bridge the gap between the two domains, we reformulate the TSF task as an image reconstruction task, which is further processed by a visual masked autoencoder (MAE) self-supervised pre-trained on the ImageNet dataset. Surprisingly, without further adaptation in the time-series domain, the proposed VisionTS could achieve superior zero-shot forecasting performance compared to existing TSF foundation models. With minimal fine-tuning, VisionTS could further improve the forecasting and achieve state-of-the-art performance in most cases. These findings suggest that visual models could be a free lunch for TSF and highlight the potential for future cross-domain research between computer vision and TSF. Our code is publicly available at https://github.com/Keytoyze/VisionTS.

Summary

AI-Generated Summary

PDF402November 16, 2024