RWKV-7 "Ganso" com Evolução Dinâmica de Estado Expressiva
RWKV-7 "Goose" with Expressive Dynamic State Evolution
March 18, 2025
Autores: Bo Peng, Ruichong Zhang, Daniel Goldstein, Eric Alcaide, Haowen Hou, Janna Lu, William Merrill, Guangyu Song, Kaifeng Tan, Saiteja Utpala, Nathan Wilce, Johan S. Wind, Tianyi Wu, Daniel Wuttke, Christian Zhou-Zheng
cs.AI
Resumo
Apresentamos o RWKV-7 "Goose", uma nova arquitetura de modelagem de sequências, juntamente com modelos de linguagem pré-treinados que estabelecem um novo estado da arte em desempenho downstream na escala de 3 bilhões de parâmetros em tarefas multilíngues, e igualam o desempenho atual do estado da arte em inglês, apesar de terem sido treinados com significativamente menos tokens do que outros modelos top de 3B. No entanto, os modelos RWKV-7 exigem apenas uso de memória constante e tempo de inferência constante por token. O RWKV-7 introduz uma nova formulação generalizada da regra delta com portas vetoriais e taxas de aprendizado em contexto, além de uma regra relaxada de substituição de valores. Mostramos que o RWKV-7 pode realizar rastreamento de estado e reconhecer todas as linguagens regulares, mantendo a paralelizabilidade do treinamento. Isso excede as capacidades dos Transformers sob conjecturas de complexidade padrão, que são limitados a TC^0. Para demonstrar a capacidade de modelagem de linguagem do RWKV-7, também apresentamos um corpus multilíngue de código aberto estendido com 3,1 trilhões de tokens, e treinamos quatro modelos RWKV-7 variando de 0,19 bilhão a 2,9 bilhões de parâmetros nesse conjunto de dados.
Para promover abertura, reprodução e adoção, disponibilizamos nossos modelos e a lista de componentes do conjunto de dados em https://huggingface.co/RWKV, e nosso código de treinamento e inferência em https://github.com/RWKV/RWKV-LM, todos sob a Licença Apache 2.0.
English
We present RWKV-7 "Goose", a new sequence modeling architecture, along with
pre-trained language models that establish a new state-of-the-art in downstream
performance at the 3 billion parameter scale on multilingual tasks, and match
current SoTA English language performance despite being trained on dramatically
fewer tokens than other top 3B models. Nevertheless, RWKV-7 models require only
constant memory usage and constant inference time per token. RWKV-7 introduces
a newly generalized formulation of the delta rule with vector-valued gating and
in-context learning rates, as well as a relaxed value replacement rule. We show
that RWKV-7 can perform state tracking and recognize all regular languages,
while retaining parallelizability of training. This exceeds the capabilities of
Transformers under standard complexity conjectures, which are limited to
TC^0. To demonstrate RWKV-7's language modeling capability, we also
present an extended open source 3.1 trillion token multilingual corpus, and
train four RWKV-7 models ranging from 0.19 billion to 2.9 billion parameters on
this dataset.
To foster openness, reproduction, and adoption, we release our models and
dataset component listing at https://huggingface.co/RWKV, and our training and
inference code at https://github.com/RWKV/RWKV-LM all under the Apache 2.0
License.Summary
AI-Generated Summary