ChatPaper.aiChatPaper

BlackGoose Rimer: Aprovechando RWKV-7 como un reemplazo simple pero superior a los Transformers en el modelado de series temporales a gran escala

BlackGoose Rimer: Harnessing RWKV-7 as a Simple yet Superior Replacement for Transformers in Large-Scale Time Series Modeling

March 8, 2025
Autores: Li weile, Liu Xiao
cs.AI

Resumen

Los modelos de series temporales enfrentan desafíos significativos para escalar y manejar conjuntos de datos grandes y complejos, similares a los logrados por los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Las características únicas de los datos de series temporales y las demandas computacionales del escalamiento de modelos requieren enfoques innovadores. Si bien los investigadores han explorado diversas arquitecturas, como Transformers, LSTMs y GRUs, para abordar estos desafíos, proponemos una solución novedosa utilizando RWKV-7, que incorpora metaaprendizaje en su mecanismo de actualización de estados. Al integrar los componentes de mezcla temporal (time mix) y mezcla de canales (channel mix) de RWKV-7 en el modelo de series temporales basado en transformers, Timer, logramos una mejora sustancial en el rendimiento de aproximadamente 1.13 a 43.3 veces y una reducción de 4.5 veces en el tiempo de entrenamiento con 1/23 de los parámetros, todo ello utilizando menos parámetros. Nuestro código y los pesos del modelo están disponibles públicamente para su investigación y desarrollo en https://github.com/Alic-Li/BlackGoose_Rimer.
English
Time series models face significant challenges in scaling to handle large and complex datasets, akin to the scaling achieved by large language models (LLMs). The unique characteristics of time series data and the computational demands of model scaling necessitate innovative approaches. While researchers have explored various architectures such as Transformers, LSTMs, and GRUs to address these challenges, we propose a novel solution using RWKV-7, which incorporates meta-learning into its state update mechanism. By integrating RWKV-7's time mix and channel mix components into the transformer-based time series model Timer, we achieve a substantial performance improvement of approximately 1.13 to 43.3x and a 4.5x reduction in training time with 1/23 parameters, all while utilizing fewer parameters. Our code and model weights are publicly available for further research and development at https://github.com/Alic-Li/BlackGoose_Rimer.

Summary

AI-Generated Summary

PDF52March 11, 2025