ChatPaper.aiChatPaper

RWKV-7 "Гусь" с экспрессивной динамической эволюцией состояния

RWKV-7 "Goose" with Expressive Dynamic State Evolution

March 18, 2025
Авторы: Bo Peng, Ruichong Zhang, Daniel Goldstein, Eric Alcaide, Haowen Hou, Janna Lu, William Merrill, Guangyu Song, Kaifeng Tan, Saiteja Utpala, Nathan Wilce, Johan S. Wind, Tianyi Wu, Daniel Wuttke, Christian Zhou-Zheng
cs.AI

Аннотация

Мы представляем RWKV-7 "Goose", новую архитектуру моделирования последовательностей, а также предобученные языковые модели, которые устанавливают новый эталон производительности на задачах с 3 миллиардами параметров в многоязычных сценариях и соответствуют текущему уровню SoTA для английского языка, несмотря на обучение на значительно меньшем количестве токенов по сравнению с другими ведущими моделями с 3 миллиардами параметров. При этом модели RWKV-7 требуют только постоянного использования памяти и постоянного времени вывода на токен. RWKV-7 представляет новую обобщенную формулировку дельта-правила с векторным управлением и скоростями обучения в контексте, а также ослабленное правило замены значений. Мы показываем, что RWKV-7 способна выполнять отслеживание состояний и распознавать все регулярные языки, сохраняя параллелизуемость обучения. Это превосходит возможности трансформеров в рамках стандартных гипотез о сложности, которые ограничены классом TC^0. Чтобы продемонстрировать возможности RWKV-7 в языковом моделировании, мы также представляем расширенный открытый многоязычный корпус объемом 3,1 триллиона токенов и обучаем четыре модели RWKV-7 с количеством параметров от 0,19 до 2,9 миллиардов на этом наборе данных. Для поддержки открытости, воспроизводимости и внедрения мы публикуем наши модели и список компонентов набора данных по адресу https://huggingface.co/RWKV, а также наш код для обучения и вывода по адресу https://github.com/RWKV/RWKV-LM, все под лицензией Apache 2.0.
English
We present RWKV-7 "Goose", a new sequence modeling architecture, along with pre-trained language models that establish a new state-of-the-art in downstream performance at the 3 billion parameter scale on multilingual tasks, and match current SoTA English language performance despite being trained on dramatically fewer tokens than other top 3B models. Nevertheless, RWKV-7 models require only constant memory usage and constant inference time per token. RWKV-7 introduces a newly generalized formulation of the delta rule with vector-valued gating and in-context learning rates, as well as a relaxed value replacement rule. We show that RWKV-7 can perform state tracking and recognize all regular languages, while retaining parallelizability of training. This exceeds the capabilities of Transformers under standard complexity conjectures, which are limited to TC^0. To demonstrate RWKV-7's language modeling capability, we also present an extended open source 3.1 trillion token multilingual corpus, and train four RWKV-7 models ranging from 0.19 billion to 2.9 billion parameters on this dataset. To foster openness, reproduction, and adoption, we release our models and dataset component listing at https://huggingface.co/RWKV, and our training and inference code at https://github.com/RWKV/RWKV-LM all under the Apache 2.0 License.

Summary

AI-Generated Summary

PDF14611March 19, 2025