BlackGoose Rimer: 대규모 시계열 모델링에서 Transformers를 대체하는 단순하지만 우수한 RWKV-7 활용
BlackGoose Rimer: Harnessing RWKV-7 as a Simple yet Superior Replacement for Transformers in Large-Scale Time Series Modeling
March 8, 2025
저자: Li weile, Liu Xiao
cs.AI
초록
시계열 모델은 대규모 언어 모델(LLM)이 달성한 것과 유사한 수준으로 대규모 및 복잡한 데이터셋을 처리하기 위해 확장하는 데 상당한 어려움에 직면해 있습니다. 시계열 데이터의 고유한 특성과 모델 확장의 계산적 요구 사항은 혁신적인 접근 방식을 필요로 합니다. 연구자들은 이러한 문제를 해결하기 위해 Transformer, LSTM, GRU 등 다양한 아키텍처를 탐구해 왔지만, 우리는 메타러닝을 상태 업데이트 메커니즘에 통합한 RWKV-7을 사용한 새로운 솔루션을 제안합니다. RWKV-7의 시간 혼합(time mix) 및 채널 혼합(channel mix) 컴포넌트를 Transformer 기반 시계열 모델인 Timer에 통합함으로써, 약 1.13배에서 43.3배의 성능 향상과 1/23의 파라미터를 사용하면서도 훈련 시간을 4.5배 단축하는 결과를 달성했습니다. 우리의 코드와 모델 가중치는 추가 연구 및 개발을 위해 https://github.com/Alic-Li/BlackGoose_Rimer에서 공개되어 있습니다.
English
Time series models face significant challenges in scaling to handle large and
complex datasets, akin to the scaling achieved by large language models (LLMs).
The unique characteristics of time series data and the computational demands of
model scaling necessitate innovative approaches. While researchers have
explored various architectures such as Transformers, LSTMs, and GRUs to address
these challenges, we propose a novel solution using RWKV-7, which incorporates
meta-learning into its state update mechanism. By integrating RWKV-7's time mix
and channel mix components into the transformer-based time series model Timer,
we achieve a substantial performance improvement of approximately 1.13 to 43.3x
and a 4.5x reduction in training time with 1/23 parameters, all while utilizing
fewer parameters. Our code and model weights are publicly available for further
research and development at https://github.com/Alic-Li/BlackGoose_Rimer.Summary
AI-Generated Summary