ChatPaper.aiChatPaper

BlackGoose Rimer: Sfruttare RWKV-7 come sostituto semplice ma superiore ai Transformer nella modellazione su larga scala di serie temporali

BlackGoose Rimer: Harnessing RWKV-7 as a Simple yet Superior Replacement for Transformers in Large-Scale Time Series Modeling

March 8, 2025
Autori: Li weile, Liu Xiao
cs.AI

Abstract

I modelli per serie temporali affrontano sfide significative nel ridimensionamento per gestire dataset grandi e complessi, simili a quelli raggiunti dai grandi modelli linguistici (LLM). Le caratteristiche uniche dei dati delle serie temporali e le esigenze computazionali del ridimensionamento dei modelli richiedono approcci innovativi. Sebbene i ricercatori abbiano esplorato varie architetture come i Transformer, le LSTM e le GRU per affrontare queste sfide, proponiamo una soluzione innovativa utilizzando RWKV-7, che incorpora il meta-apprendimento nel suo meccanismo di aggiornamento dello stato. Integrando i componenti di miscelazione temporale e di canale di RWKV-7 nel modello di serie temporali basato su Transformer Timer, otteniamo un miglioramento sostanziale delle prestazioni di circa 1,13 a 43,3 volte e una riduzione del tempo di addestramento di 4,5 volte con 1/23 dei parametri, tutto ciò utilizzando un numero inferiore di parametri. Il nostro codice e i pesi del modello sono disponibili pubblicamente per ulteriori ricerche e sviluppi all'indirizzo https://github.com/Alic-Li/BlackGoose_Rimer.
English
Time series models face significant challenges in scaling to handle large and complex datasets, akin to the scaling achieved by large language models (LLMs). The unique characteristics of time series data and the computational demands of model scaling necessitate innovative approaches. While researchers have explored various architectures such as Transformers, LSTMs, and GRUs to address these challenges, we propose a novel solution using RWKV-7, which incorporates meta-learning into its state update mechanism. By integrating RWKV-7's time mix and channel mix components into the transformer-based time series model Timer, we achieve a substantial performance improvement of approximately 1.13 to 43.3x and a 4.5x reduction in training time with 1/23 parameters, all while utilizing fewer parameters. Our code and model weights are publicly available for further research and development at https://github.com/Alic-Li/BlackGoose_Rimer.

Summary

AI-Generated Summary

PDF52March 11, 2025