Adler und Fink: RWKV mit matrizenwertigen Zuständen und dynamischer Rekurrenz
Eagle and Finch: RWKV with Matrix-Valued States and Dynamic Recurrence
April 8, 2024
Autoren: Bo Peng, Daniel Goldstein, Quentin Anthony, Alon Albalak, Eric Alcaide, Stella Biderman, Eugene Cheah, Teddy Ferdinan, Haowen Hou, Przemysław Kazienko, Kranthi Kiran GV, Jan Kocoń, Bartłomiej Koptyra, Satyapriya Krishna, Ronald McClelland Jr., Niklas Muennighoff, Fares Obeid, Atsushi Saito, Guangyu Song, Haoqin Tu, Stanisław Woźniak, Ruichong Zhang, Bingchen Zhao, Qihang Zhao, Peng Zhou, Jian Zhu, Rui-Jie Zhu
cs.AI
Zusammenfassung
Wir präsentieren Eagle (RWKV-5) und Finch (RWKV-6), Sequenzmodelle, die auf der RWKV (RWKV-4) Architektur aufbauen und verbessert wurden. Unsere architektonischen Fortschritte umfassen mehrköpfige, matrixwertige Zustände und einen dynamischen Rekurrenzmechanismus, die die Ausdrucksfähigkeit verbessern und gleichzeitig die Inferenzeffizienzmerkmale von RNNs beibehalten. Wir stellen einen neuen mehrsprachigen Korpus mit 1,12 Billionen Tokens und einen schnellen Tokenizer auf der Grundlage von gierigem Matching für eine verbesserte Mehrsprachigkeit vor. Wir haben vier Eagle-Modelle mit 0,46 bis 7,5 Milliarden Parametern und zwei Finch-Modelle mit 1,6 und 3,1 Milliarden Parametern trainiert und festgestellt, dass sie eine wettbewerbsfähige Leistung in einer Vielzahl von Benchmarks erzielen. Wir veröffentlichen alle unsere Modelle unter der Apache 2.0 Lizenz auf HuggingFace. Modelle unter: https://huggingface.co/RWKV Trainingscode unter: https://github.com/RWKV/RWKV-LM Inferenzcode unter: https://github.com/RWKV/ChatRWKV Zeitparalleler Trainingscode unter: https://github.com/RWKV/RWKV-infctx-trainer
English
We present Eagle (RWKV-5) and Finch (RWKV-6), sequence models improving upon
the RWKV (RWKV-4) architecture. Our architectural design advancements include
multi-headed matrix-valued states and a dynamic recurrence mechanism that
improve expressivity while maintaining the inference efficiency characteristics
of RNNs. We introduce a new multilingual corpus with 1.12 trillion tokens and a
fast tokenizer based on greedy matching for enhanced multilinguality. We
trained four Eagle models, ranging from 0.46 to 7.5 billion parameters, and two
Finch models with 1.6 and 3.1 billion parameters and find that they achieve
competitive performance across a wide variety of benchmarks. We release all our
models on HuggingFace under the Apache 2.0 license. Models at:
https://huggingface.co/RWKV Training code at: https://github.com/RWKV/RWKV-LM
Inference code at: https://github.com/RWKV/ChatRWKV Time-parallel training code
at: https://github.com/RWKV/RWKV-infctx-trainerSummary
AI-Generated Summary