ChatPaper.aiChatPaper

BlackGoose Rimer: Использование RWKV-7 как простой, но превосходной замены трансформеров в крупномасштабном моделировании временных рядов

BlackGoose Rimer: Harnessing RWKV-7 as a Simple yet Superior Replacement for Transformers in Large-Scale Time Series Modeling

March 8, 2025
Авторы: Li weile, Liu Xiao
cs.AI

Аннотация

Модели временных рядов сталкиваются с серьезными трудностями при масштабировании для обработки больших и сложных наборов данных, аналогично тому, как это достигается в крупных языковых моделях (LLM). Уникальные характеристики данных временных рядов и вычислительные требования масштабирования моделей требуют инновационных подходов. Хотя исследователи изучили различные архитектуры, такие как Transformers, LSTM и GRU, для решения этих задач, мы предлагаем новое решение с использованием RWKV-7, которое интегрирует метаобучение в механизм обновления состояний. Благодаря объединению компонентов временного и канального смешивания RWKV-7 в трансформерную модель временных рядов Timer, мы достигаем значительного улучшения производительности примерно в 1,13–43,3 раза и сокращения времени обучения в 4,5 раза при использовании в 23 раза меньшего числа параметров. Наш код и веса модели доступны для дальнейших исследований и разработок по адресу https://github.com/Alic-Li/BlackGoose_Rimer.
English
Time series models face significant challenges in scaling to handle large and complex datasets, akin to the scaling achieved by large language models (LLMs). The unique characteristics of time series data and the computational demands of model scaling necessitate innovative approaches. While researchers have explored various architectures such as Transformers, LSTMs, and GRUs to address these challenges, we propose a novel solution using RWKV-7, which incorporates meta-learning into its state update mechanism. By integrating RWKV-7's time mix and channel mix components into the transformer-based time series model Timer, we achieve a substantial performance improvement of approximately 1.13 to 43.3x and a 4.5x reduction in training time with 1/23 parameters, all while utilizing fewer parameters. Our code and model weights are publicly available for further research and development at https://github.com/Alic-Li/BlackGoose_Rimer.

Summary

AI-Generated Summary

PDF52March 11, 2025