ChatPaper.aiChatPaper

표현적 동적 상태 진화를 갖춘 RWKV-7 "Goose"

RWKV-7 "Goose" with Expressive Dynamic State Evolution

March 18, 2025
저자: Bo Peng, Ruichong Zhang, Daniel Goldstein, Eric Alcaide, Haowen Hou, Janna Lu, William Merrill, Guangyu Song, Kaifeng Tan, Saiteja Utpala, Nathan Wilce, Johan S. Wind, Tianyi Wu, Daniel Wuttke, Christian Zhou-Zheng
cs.AI

초록

우리는 새로운 시퀀스 모델링 아키텍처인 RWKV-7 "Goose"와 이를 기반으로 사전 학습된 언어 모델을 소개합니다. 이 모델은 30억 파라미터 규모에서 다국어 작업에 대한 다운스트림 성능에서 새로운 최첨단 기술을 확립하며, 다른 최고 수준의 30억 파라미터 모델보다 훨씬 적은 토큰으로 학습했음에도 불구하고 현재의 영어 언어 성능과 동등한 수준을 보여줍니다. 또한 RWKV-7 모델은 토큰당 일정한 메모리 사용량과 일정한 추론 시간만을 요구합니다. RWKV-7은 벡터 값 게이팅과 컨텍스트 내 학습률을 포함한 델타 규칙의 새로운 일반화된 공식화와 완화된 값 대체 규칙을 도입했습니다. 우리는 RWKV-7이 상태 추적을 수행하고 모든 정규 언어를 인식할 수 있으며, 동시에 훈련의 병렬화 가능성을 유지할 수 있음을 보여줍니다. 이는 표준 복잡성 추론 하에서 TC^0로 제한되는 트랜스포머의 능력을 초과합니다. RWKV-7의 언어 모델링 능력을 입증하기 위해, 우리는 또한 확장된 오픈 소스 3.1조 토큰 다국어 코퍼스를 제시하고, 이 데이터셋에서 1.9억에서 29억 파라미터에 이르는 네 개의 RWKV-7 모델을 학습시켰습니다. 개방성, 재현성, 그리고 채택을 촉진하기 위해, 우리는 모델과 데이터셋 구성 요소 목록을 https://huggingface.co/RWKV에서, 훈련 및 추론 코드를 https://github.com/RWKV/RWKV-LM에서 아파치 2.0 라이선스 하에 공개합니다.
English
We present RWKV-7 "Goose", a new sequence modeling architecture, along with pre-trained language models that establish a new state-of-the-art in downstream performance at the 3 billion parameter scale on multilingual tasks, and match current SoTA English language performance despite being trained on dramatically fewer tokens than other top 3B models. Nevertheless, RWKV-7 models require only constant memory usage and constant inference time per token. RWKV-7 introduces a newly generalized formulation of the delta rule with vector-valued gating and in-context learning rates, as well as a relaxed value replacement rule. We show that RWKV-7 can perform state tracking and recognize all regular languages, while retaining parallelizability of training. This exceeds the capabilities of Transformers under standard complexity conjectures, which are limited to TC^0. To demonstrate RWKV-7's language modeling capability, we also present an extended open source 3.1 trillion token multilingual corpus, and train four RWKV-7 models ranging from 0.19 billion to 2.9 billion parameters on this dataset. To foster openness, reproduction, and adoption, we release our models and dataset component listing at https://huggingface.co/RWKV, and our training and inference code at https://github.com/RWKV/RWKV-LM all under the Apache 2.0 License.

Summary

AI-Generated Summary

PDF14611March 19, 2025