RWKV-7 "Ganso" com Evolução Dinâmica de Estado ExpressivaRWKV-7 "Goose" with Expressive Dynamic State Evolution
Apresentamos o RWKV-7 "Goose", uma nova arquitetura de modelagem de sequências, juntamente com modelos de linguagem pré-treinados que estabelecem um novo estado da arte em desempenho downstream na escala de 3 bilhões de parâmetros em tarefas multilíngues, e igualam o desempenho atual do estado da arte em inglês, apesar de terem sido treinados com significativamente menos tokens do que outros modelos top de 3B. No entanto, os modelos RWKV-7 exigem apenas uso de memória constante e tempo de inferência constante por token. O RWKV-7 introduz uma nova formulação generalizada da regra delta com portas vetoriais e taxas de aprendizado em contexto, além de uma regra relaxada de substituição de valores. Mostramos que o RWKV-7 pode realizar rastreamento de estado e reconhecer todas as linguagens regulares, mantendo a paralelizabilidade do treinamento. Isso excede as capacidades dos Transformers sob conjecturas de complexidade padrão, que são limitados a TC^0. Para demonstrar a capacidade de modelagem de linguagem do RWKV-7, também apresentamos um corpus multilíngue de código aberto estendido com 3,1 trilhões de tokens, e treinamos quatro modelos RWKV-7 variando de 0,19 bilhão a 2,9 bilhões de parâmetros nesse conjunto de dados. Para promover abertura, reprodução e adoção, disponibilizamos nossos modelos e a lista de componentes do conjunto de dados em https://huggingface.co/RWKV, e nosso código de treinamento e inferência em https://github.com/RWKV/RWKV-LM, todos sob a Licença Apache 2.0.