ChatPaper.aiChatPaper

RWKV-7 "Goose" con Evoluzione Dinamica Espressiva dello Stato

RWKV-7 "Goose" with Expressive Dynamic State Evolution

March 18, 2025
Autori: Bo Peng, Ruichong Zhang, Daniel Goldstein, Eric Alcaide, Haowen Hou, Janna Lu, William Merrill, Guangyu Song, Kaifeng Tan, Saiteja Utpala, Nathan Wilce, Johan S. Wind, Tianyi Wu, Daniel Wuttke, Christian Zhou-Zheng
cs.AI

Abstract

Presentiamo RWKV-7 "Goose", una nuova architettura per la modellazione di sequenze, insieme a modelli linguistici pre-addestrati che stabiliscono un nuovo stato dell'arte nelle prestazioni downstream su scala di 3 miliardi di parametri per task multilingue, eguagliando le attuali prestazioni di punta per la lingua inglese nonostante siano stati addestrati su un numero significativamente inferiore di token rispetto ad altri modelli top da 3B. Tuttavia, i modelli RWKV-7 richiedono solo un utilizzo di memoria costante e un tempo di inferenza costante per token. RWKV-7 introduce una nuova formulazione generalizzata della regola delta con gate vettoriali e tassi di apprendimento in-context, oltre a una regola rilassata di sostituzione dei valori. Dimostriamo che RWKV-7 è in grado di eseguire il tracciamento dello stato e riconoscere tutti i linguaggi regolari, mantenendo al contempo la parallelizzabilità dell'addestramento. Ciò supera le capacità dei Transformer sotto le congetture di complessità standard, che sono limitati a TC^0. Per dimostrare la capacità di modellazione linguistica di RWKV-7, presentiamo anche un corpus multilingue open source esteso da 3,1 trilioni di token, e addestriamo quattro modelli RWKV-7 con un numero di parametri compreso tra 0,19 miliardi e 2,9 miliardi su questo dataset. Per promuovere apertura, riproducibilità e adozione, rilasciamo i nostri modelli e l'elenco dei componenti del dataset su https://huggingface.co/RWKV, e il nostro codice di addestramento e inferenza su https://github.com/RWKV/RWKV-LM, tutto sotto licenza Apache 2.0.
English
We present RWKV-7 "Goose", a new sequence modeling architecture, along with pre-trained language models that establish a new state-of-the-art in downstream performance at the 3 billion parameter scale on multilingual tasks, and match current SoTA English language performance despite being trained on dramatically fewer tokens than other top 3B models. Nevertheless, RWKV-7 models require only constant memory usage and constant inference time per token. RWKV-7 introduces a newly generalized formulation of the delta rule with vector-valued gating and in-context learning rates, as well as a relaxed value replacement rule. We show that RWKV-7 can perform state tracking and recognize all regular languages, while retaining parallelizability of training. This exceeds the capabilities of Transformers under standard complexity conjectures, which are limited to TC^0. To demonstrate RWKV-7's language modeling capability, we also present an extended open source 3.1 trillion token multilingual corpus, and train four RWKV-7 models ranging from 0.19 billion to 2.9 billion parameters on this dataset. To foster openness, reproduction, and adoption, we release our models and dataset component listing at https://huggingface.co/RWKV, and our training and inference code at https://github.com/RWKV/RWKV-LM all under the Apache 2.0 License.
PDF14911March 19, 2025