ChatPaper.aiChatPaper

BlackGoose Rimer: RWKV-7 inzetten als een eenvoudig maar superieur alternatief voor Transformers in grootschalige tijdreeksmodellering

BlackGoose Rimer: Harnessing RWKV-7 as a Simple yet Superior Replacement for Transformers in Large-Scale Time Series Modeling

March 8, 2025
Auteurs: Li weile, Liu Xiao
cs.AI

Samenvatting

Tijdreeksmodellen staan voor aanzienlijke uitdagingen bij het opschalen om grote en complexe datasets te verwerken, vergelijkbaar met de schaalbaarheid die grote taalmmodellen (LLM's) hebben bereikt. De unieke kenmerken van tijdreeksgegevens en de rekenkundige eisen van modelschaling vereisen innovatieve benaderingen. Hoewel onderzoekers verschillende architecturen zoals Transformers, LSTMs en GRUs hebben verkend om deze uitdagingen aan te pakken, stellen wij een nieuwe oplossing voor met RWKV-7, dat meta-leren integreert in zijn staatupdate-mechanisme. Door RWKV-7's tijdmix- en kanaalmix-componenten te integreren in het transformer-gebaseerde tijdreeksmodel Timer, behalen we een aanzienlijke prestatieverbetering van ongeveer 1,13 tot 43,3x en een reductie van 4,5x in de trainingstijd met 1/23 parameters, terwijl we minder parameters gebruiken. Onze code en modelgewichten zijn publiekelijk beschikbaar voor verder onderzoek en ontwikkeling op https://github.com/Alic-Li/BlackGoose_Rimer.
English
Time series models face significant challenges in scaling to handle large and complex datasets, akin to the scaling achieved by large language models (LLMs). The unique characteristics of time series data and the computational demands of model scaling necessitate innovative approaches. While researchers have explored various architectures such as Transformers, LSTMs, and GRUs to address these challenges, we propose a novel solution using RWKV-7, which incorporates meta-learning into its state update mechanism. By integrating RWKV-7's time mix and channel mix components into the transformer-based time series model Timer, we achieve a substantial performance improvement of approximately 1.13 to 43.3x and a 4.5x reduction in training time with 1/23 parameters, all while utilizing fewer parameters. Our code and model weights are publicly available for further research and development at https://github.com/Alic-Li/BlackGoose_Rimer.

Summary

AI-Generated Summary

PDF52March 11, 2025