ChatPaper.aiChatPaper

BlackGoose Rimer: Utilizando o RWKV-7 como uma Substituição Simples, porém Superior, aos Transformers na Modelagem de Séries Temporais em Grande Escala

BlackGoose Rimer: Harnessing RWKV-7 as a Simple yet Superior Replacement for Transformers in Large-Scale Time Series Modeling

March 8, 2025
Autores: Li weile, Liu Xiao
cs.AI

Resumo

Os modelos de séries temporais enfrentam desafios significativos para escalar e lidar com conjuntos de dados grandes e complexos, semelhantes à escalabilidade alcançada pelos grandes modelos de linguagem (LLMs). As características únicas dos dados de séries temporais e as demandas computacionais da escalabilidade de modelos exigem abordagens inovadoras. Embora os pesquisadores tenham explorado várias arquiteturas, como Transformers, LSTMs e GRUs, para abordar esses desafios, propomos uma solução inovadora utilizando o RWKV-7, que incorpora meta-aprendizado em seu mecanismo de atualização de estado. Ao integrar os componentes de mistura temporal (time mix) e mistura de canais (channel mix) do RWKV-7 no modelo de séries temporais baseado em Transformer, o Timer, alcançamos uma melhoria substancial no desempenho de aproximadamente 1,13 a 43,3x e uma redução de 4,5x no tempo de treinamento com 1/23 dos parâmetros, tudo isso utilizando menos parâmetros. Nosso código e os pesos do modelo estão disponíveis publicamente para pesquisa e desenvolvimento adicional em https://github.com/Alic-Li/BlackGoose_Rimer.
English
Time series models face significant challenges in scaling to handle large and complex datasets, akin to the scaling achieved by large language models (LLMs). The unique characteristics of time series data and the computational demands of model scaling necessitate innovative approaches. While researchers have explored various architectures such as Transformers, LSTMs, and GRUs to address these challenges, we propose a novel solution using RWKV-7, which incorporates meta-learning into its state update mechanism. By integrating RWKV-7's time mix and channel mix components into the transformer-based time series model Timer, we achieve a substantial performance improvement of approximately 1.13 to 43.3x and a 4.5x reduction in training time with 1/23 parameters, all while utilizing fewer parameters. Our code and model weights are publicly available for further research and development at https://github.com/Alic-Li/BlackGoose_Rimer.

Summary

AI-Generated Summary

PDF52March 11, 2025