ChatPaper.aiChatPaper

イーグルとフィンチ:行列値状態と動的再帰を備えたRWKV

Eagle and Finch: RWKV with Matrix-Valued States and Dynamic Recurrence

April 8, 2024
著者: Bo Peng, Daniel Goldstein, Quentin Anthony, Alon Albalak, Eric Alcaide, Stella Biderman, Eugene Cheah, Teddy Ferdinan, Haowen Hou, Przemysław Kazienko, Kranthi Kiran GV, Jan Kocoń, Bartłomiej Koptyra, Satyapriya Krishna, Ronald McClelland Jr., Niklas Muennighoff, Fares Obeid, Atsushi Saito, Guangyu Song, Haoqin Tu, Stanisław Woźniak, Ruichong Zhang, Bingchen Zhao, Qihang Zhao, Peng Zhou, Jian Zhu, Rui-Jie Zhu
cs.AI

要旨

私たちは、RWKV(RWKV-4)アーキテクチャを改良したシーケンスモデルであるEagle(RWKV-5)とFinch(RWKV-6)を発表します。私たちのアーキテクチャ設計の進歩には、多頭行列値状態と動的再帰メカニズムが含まれており、これらはRNNの推論効率特性を維持しながら表現力を向上させます。また、1.12兆トークンからなる新しい多言語コーパスと、貪欲マッチングに基づく高速トークナイザーを導入し、多言語対応を強化しました。0.46億から75億パラメータまでの4つのEagleモデルと、16億および31億パラメータの2つのFinchモデルをトレーニングし、それらが幅広いベンチマークで競争力のある性能を達成することを確認しました。すべてのモデルをApache 2.0ライセンスの下でHuggingFaceに公開しています。モデルは以下にあります: https://huggingface.co/RWKV トレーニングコードは以下にあります: https://github.com/RWKV/RWKV-LM 推論コードは以下にあります: https://github.com/RWKV/ChatRWKV 時間並列トレーニングコードは以下にあります: https://github.com/RWKV/RWKV-infctx-trainer
English
We present Eagle (RWKV-5) and Finch (RWKV-6), sequence models improving upon the RWKV (RWKV-4) architecture. Our architectural design advancements include multi-headed matrix-valued states and a dynamic recurrence mechanism that improve expressivity while maintaining the inference efficiency characteristics of RNNs. We introduce a new multilingual corpus with 1.12 trillion tokens and a fast tokenizer based on greedy matching for enhanced multilinguality. We trained four Eagle models, ranging from 0.46 to 7.5 billion parameters, and two Finch models with 1.6 and 3.1 billion parameters and find that they achieve competitive performance across a wide variety of benchmarks. We release all our models on HuggingFace under the Apache 2.0 license. Models at: https://huggingface.co/RWKV Training code at: https://github.com/RWKV/RWKV-LM Inference code at: https://github.com/RWKV/ChatRWKV Time-parallel training code at: https://github.com/RWKV/RWKV-infctx-trainer

Summary

AI-Generated Summary

PDF391December 15, 2024