BlackGoose Rimer : Exploiter RWKV-7 comme un remplacement simple mais supérieur aux Transformers pour la modélisation de séries temporelles à grande échelle
BlackGoose Rimer: Harnessing RWKV-7 as a Simple yet Superior Replacement for Transformers in Large-Scale Time Series Modeling
March 8, 2025
Auteurs: Li weile, Liu Xiao
cs.AI
Résumé
Les modèles de séries temporelles rencontrent des défis importants pour s'adapter à la gestion de grands ensembles de données complexes, similaires à l'échelle atteinte par les grands modèles de langage (LLMs). Les caractéristiques uniques des données de séries temporelles et les exigences computationnelles de la mise à l'échelle des modèles nécessitent des approches innovantes. Bien que les chercheurs aient exploré diverses architectures telles que les Transformers, les LSTMs et les GRUs pour relever ces défis, nous proposons une solution novatrice utilisant RWKV-7, qui intègre le méta-apprentissage dans son mécanisme de mise à jour d'état. En intégrant les composants de mélange temporel et de mélange de canaux de RWKV-7 dans le modèle de séries temporelles basé sur les Transformers, Timer, nous obtenons une amélioration significative des performances, allant d'environ 1,13 à 43,3 fois, ainsi qu'une réduction de 4,5 fois du temps d'entraînement avec 1/23 des paramètres, tout en utilisant moins de paramètres. Notre code et les poids du modèle sont disponibles publiquement pour des recherches et développements ultérieurs à l'adresse https://github.com/Alic-Li/BlackGoose_Rimer.
English
Time series models face significant challenges in scaling to handle large and
complex datasets, akin to the scaling achieved by large language models (LLMs).
The unique characteristics of time series data and the computational demands of
model scaling necessitate innovative approaches. While researchers have
explored various architectures such as Transformers, LSTMs, and GRUs to address
these challenges, we propose a novel solution using RWKV-7, which incorporates
meta-learning into its state update mechanism. By integrating RWKV-7's time mix
and channel mix components into the transformer-based time series model Timer,
we achieve a substantial performance improvement of approximately 1.13 to 43.3x
and a 4.5x reduction in training time with 1/23 parameters, all while utilizing
fewer parameters. Our code and model weights are publicly available for further
research and development at https://github.com/Alic-Li/BlackGoose_Rimer.Summary
AI-Generated Summary