Eagle et Finch : RWKV avec états à valeurs matricielles et récurrence dynamique
Eagle and Finch: RWKV with Matrix-Valued States and Dynamic Recurrence
April 8, 2024
Auteurs: Bo Peng, Daniel Goldstein, Quentin Anthony, Alon Albalak, Eric Alcaide, Stella Biderman, Eugene Cheah, Teddy Ferdinan, Haowen Hou, Przemysław Kazienko, Kranthi Kiran GV, Jan Kocoń, Bartłomiej Koptyra, Satyapriya Krishna, Ronald McClelland Jr., Niklas Muennighoff, Fares Obeid, Atsushi Saito, Guangyu Song, Haoqin Tu, Stanisław Woźniak, Ruichong Zhang, Bingchen Zhao, Qihang Zhao, Peng Zhou, Jian Zhu, Rui-Jie Zhu
cs.AI
Résumé
Nous présentons Eagle (RWKV-5) et Finch (RWKV-6), des modèles de séquence qui améliorent l'architecture RWKV (RWKV-4). Nos avancées en matière de conception architecturale incluent des états matriciels multi-têtes et un mécanisme de récurrence dynamique qui améliorent l'expressivité tout en conservant les caractéristiques d'efficacité en inférence des RNN. Nous introduisons un nouveau corpus multilingue contenant 1,12 trillion de tokens ainsi qu'un tokeniseur rapide basé sur l'appariement glouton pour une meilleure prise en charge du multilinguisme. Nous avons entraîné quatre modèles Eagle, allant de 0,46 à 7,5 milliards de paramètres, et deux modèles Finch avec 1,6 et 3,1 milliards de paramètres, et constatons qu'ils atteignent des performances compétitives sur une large variété de benchmarks. Nous publions tous nos modèles sur HuggingFace sous licence Apache 2.0. Les modèles sont disponibles à l'adresse : https://huggingface.co/RWKV Le code d'entraînement est disponible à l'adresse : https://github.com/RWKV/RWKV-LM Le code d'inférence est disponible à l'adresse : https://github.com/RWKV/ChatRWKV Le code d'entraînement parallèle dans le temps est disponible à l'adresse : https://github.com/RWKV/RWKV-infctx-trainer
English
We present Eagle (RWKV-5) and Finch (RWKV-6), sequence models improving upon
the RWKV (RWKV-4) architecture. Our architectural design advancements include
multi-headed matrix-valued states and a dynamic recurrence mechanism that
improve expressivity while maintaining the inference efficiency characteristics
of RNNs. We introduce a new multilingual corpus with 1.12 trillion tokens and a
fast tokenizer based on greedy matching for enhanced multilinguality. We
trained four Eagle models, ranging from 0.46 to 7.5 billion parameters, and two
Finch models with 1.6 and 3.1 billion parameters and find that they achieve
competitive performance across a wide variety of benchmarks. We release all our
models on HuggingFace under the Apache 2.0 license. Models at:
https://huggingface.co/RWKV Training code at: https://github.com/RWKV/RWKV-LM
Inference code at: https://github.com/RWKV/ChatRWKV Time-parallel training code
at: https://github.com/RWKV/RWKV-infctx-trainerSummary
AI-Generated Summary