표현적 동적 상태 진화를 갖춘 RWKV-7 "Goose"RWKV-7 "Goose" with Expressive Dynamic State Evolution
우리는 새로운 시퀀스 모델링 아키텍처인 RWKV-7 "Goose"와 이를 기반으로 사전 학습된 언어 모델을 소개합니다. 이 모델은 30억 파라미터 규모에서 다국어 작업에 대한 다운스트림 성능에서 새로운 최첨단 기술을 확립하며, 다른 최고 수준의 30억 파라미터 모델보다 훨씬 적은 토큰으로 학습했음에도 불구하고 현재의 영어 언어 성능과 동등한 수준을 보여줍니다. 또한 RWKV-7 모델은 토큰당 일정한 메모리 사용량과 일정한 추론 시간만을 요구합니다. RWKV-7은 벡터 값 게이팅과 컨텍스트 내 학습률을 포함한 델타 규칙의 새로운 일반화된 공식화와 완화된 값 대체 규칙을 도입했습니다. 우리는 RWKV-7이 상태 추적을 수행하고 모든 정규 언어를 인식할 수 있으며, 동시에 훈련의 병렬화 가능성을 유지할 수 있음을 보여줍니다. 이는 표준 복잡성 추론 하에서 TC^0로 제한되는 트랜스포머의 능력을 초과합니다. RWKV-7의 언어 모델링 능력을 입증하기 위해, 우리는 또한 확장된 오픈 소스 3.1조 토큰 다국어 코퍼스를 제시하고, 이 데이터셋에서 1.9억에서 29억 파라미터에 이르는 네 개의 RWKV-7 모델을 학습시켰습니다. 개방성, 재현성, 그리고 채택을 촉진하기 위해, 우리는 모델과 데이터셋 구성 요소 목록을 https://huggingface.co/RWKV에서, 훈련 및 추론 코드를 https://github.com/RWKV/RWKV-LM에서 아파치 2.0 라이선스 하에 공개합니다.