ChatPaper.aiChatPaper

Орёл и зяблик: RWKV с матричными состояниями и динамическим повторением

Eagle and Finch: RWKV with Matrix-Valued States and Dynamic Recurrence

April 8, 2024
Авторы: Bo Peng, Daniel Goldstein, Quentin Anthony, Alon Albalak, Eric Alcaide, Stella Biderman, Eugene Cheah, Teddy Ferdinan, Haowen Hou, Przemysław Kazienko, Kranthi Kiran GV, Jan Kocoń, Bartłomiej Koptyra, Satyapriya Krishna, Ronald McClelland Jr., Niklas Muennighoff, Fares Obeid, Atsushi Saito, Guangyu Song, Haoqin Tu, Stanisław Woźniak, Ruichong Zhang, Bingchen Zhao, Qihang Zhao, Peng Zhou, Jian Zhu, Rui-Jie Zhu
cs.AI

Аннотация

Мы представляем модели Eagle (RWKV-5) и Finch (RWKV-6), которые улучшают архитектуру RWKV (RWKV-4). Наши усовершенствования архитектурного дизайна включают многоголовые матричные состояния и динамический механизм рекуррентности, которые повышают выразительность, сохраняя при этом характеристики эффективности вывода RNN. Мы представляем новый многоязычный корпус с 1,12 триллионами токенов и быстрый токенизатор на основе жадного сопоставления для улучшенной мультиязычности. Мы обучили четыре модели Eagle, с числом параметров от 0,46 до 7,5 миллиарда, и две модели Finch с 1,6 и 3,1 миллиарда параметров, и обнаружили, что они достигают конкурентоспособной производительности на широком спектре тестов. Мы выпустили все наши модели на HuggingFace под лицензией Apache 2.0. Модели доступны по ссылке: https://huggingface.co/RWKV Код обучения доступен по ссылке: https://github.com/RWKV/RWKV-LM Код вывода доступен по ссылке: https://github.com/RWKV/ChatRWKV Код параллельного по времени обучения доступен по ссылке: https://github.com/RWKV/RWKV-infctx-trainer
English
We present Eagle (RWKV-5) and Finch (RWKV-6), sequence models improving upon the RWKV (RWKV-4) architecture. Our architectural design advancements include multi-headed matrix-valued states and a dynamic recurrence mechanism that improve expressivity while maintaining the inference efficiency characteristics of RNNs. We introduce a new multilingual corpus with 1.12 trillion tokens and a fast tokenizer based on greedy matching for enhanced multilinguality. We trained four Eagle models, ranging from 0.46 to 7.5 billion parameters, and two Finch models with 1.6 and 3.1 billion parameters and find that they achieve competitive performance across a wide variety of benchmarks. We release all our models on HuggingFace under the Apache 2.0 license. Models at: https://huggingface.co/RWKV Training code at: https://github.com/RWKV/RWKV-LM Inference code at: https://github.com/RWKV/ChatRWKV Time-parallel training code at: https://github.com/RWKV/RWKV-infctx-trainer

Summary

AI-Generated Summary

PDF391December 15, 2024