RWKV-7「Goose」における表現力豊かな動的状態進化RWKV-7 "Goose" with Expressive Dynamic State Evolution
RWKV-7「Goose」を紹介します。これは新しいシーケンスモデリングアーキテクチャであり、事前学習された言語モデルとともに、3億パラメータ規模での多言語タスクにおける下流性能で新たな最先端を確立し、他のトップ3Bモデルと比べて大幅に少ないトークンで学習されているにもかかわらず、現在の英語言語性能の最先端に匹敵します。それにもかかわらず、RWKV-7モデルはトークンあたりのメモリ使用量と推論時間が一定です。RWKV-7は、ベクトル値ゲーティングとコンテキスト内学習率を備えた新たに一般化されたデルタルールの定式化、および緩和された値置換ルールを導入します。RWKV-7が状態追跡を実行し、すべての正規言語を認識できることを示します。これにより、標準的な複雑性予想の下でTC^0に限定されるTransformerの能力を超えています。RWKV-7の言語モデリング能力を実証するために、3.1兆トークンの拡張オープンソース多言語コーパスも提示し、このデータセット上で0.19億から29億パラメータまでの4つのRWKV-7モデルを学習させました。 オープン性、再現性、採用を促進するために、モデルとデータセットコンポーネントのリストをhttps://huggingface.co/RWKVで、学習および推論コードをhttps://github.com/RWKV/RWKV-LMで、すべてApache 2.0ライセンスの下で公開しています。