RWKV-7 "Goose" avec Évolution Dynamique Expressive de l'État
RWKV-7 "Goose" with Expressive Dynamic State Evolution
March 18, 2025
Auteurs: Bo Peng, Ruichong Zhang, Daniel Goldstein, Eric Alcaide, Haowen Hou, Janna Lu, William Merrill, Guangyu Song, Kaifeng Tan, Saiteja Utpala, Nathan Wilce, Johan S. Wind, Tianyi Wu, Daniel Wuttke, Christian Zhou-Zheng
cs.AI
Résumé
Nous présentons RWKV-7 "Goose", une nouvelle architecture de modélisation de séquences, accompagnée de modèles de langage pré-entraînés qui établissent un nouvel état de l'art en termes de performance en aval à l'échelle de 3 milliards de paramètres sur des tâches multilingues, et égalent les performances actuelles de l'état de l'art pour la langue anglaise malgré un entraînement sur un nombre considérablement moins élevé de tokens que les autres modèles de pointe à 3 milliards de paramètres. Néanmoins, les modèles RWKV-7 nécessitent uniquement une utilisation de mémoire constante et un temps d'inférence constant par token. RWKV-7 introduit une nouvelle formulation généralisée de la règle delta avec un gating à valeurs vectorielles et des taux d'apprentissage en contexte, ainsi qu'une règle de remplacement de valeurs assouplie. Nous montrons que RWKV-7 peut effectuer un suivi d'état et reconnaître tous les langages réguliers, tout en conservant la parallélisabilité de l'entraînement. Cela dépasse les capacités des Transformers sous les conjectures de complexité standard, qui sont limitées à TC^0. Pour démontrer la capacité de modélisation de langage de RWKV-7, nous présentons également un corpus multilingue open source étendu de 3,1 billions de tokens, et entraînons quatre modèles RWKV-7 allant de 0,19 à 2,9 milliards de paramètres sur cet ensemble de données.
Pour favoriser l'ouverture, la reproduction et l'adoption, nous publions nos modèles et la liste des composants de l'ensemble de données sur https://huggingface.co/RWKV, ainsi que notre code d'entraînement et d'inférence sur https://github.com/RWKV/RWKV-LM, le tout sous licence Apache 2.0.
English
We present RWKV-7 "Goose", a new sequence modeling architecture, along with
pre-trained language models that establish a new state-of-the-art in downstream
performance at the 3 billion parameter scale on multilingual tasks, and match
current SoTA English language performance despite being trained on dramatically
fewer tokens than other top 3B models. Nevertheless, RWKV-7 models require only
constant memory usage and constant inference time per token. RWKV-7 introduces
a newly generalized formulation of the delta rule with vector-valued gating and
in-context learning rates, as well as a relaxed value replacement rule. We show
that RWKV-7 can perform state tracking and recognize all regular languages,
while retaining parallelizability of training. This exceeds the capabilities of
Transformers under standard complexity conjectures, which are limited to
TC^0. To demonstrate RWKV-7's language modeling capability, we also
present an extended open source 3.1 trillion token multilingual corpus, and
train four RWKV-7 models ranging from 0.19 billion to 2.9 billion parameters on
this dataset.
To foster openness, reproduction, and adoption, we release our models and
dataset component listing at https://huggingface.co/RWKV, and our training and
inference code at https://github.com/RWKV/RWKV-LM all under the Apache 2.0
License.Summary
AI-Generated Summary