RWKV-7 "Ganso" con Evolución Dinámica Expresiva del Estado
RWKV-7 "Goose" with Expressive Dynamic State Evolution
March 18, 2025
Autores: Bo Peng, Ruichong Zhang, Daniel Goldstein, Eric Alcaide, Haowen Hou, Janna Lu, William Merrill, Guangyu Song, Kaifeng Tan, Saiteja Utpala, Nathan Wilce, Johan S. Wind, Tianyi Wu, Daniel Wuttke, Christian Zhou-Zheng
cs.AI
Resumen
Presentamos RWKV-7 "Goose", una nueva arquitectura de modelado de secuencias, junto con modelos de lenguaje preentrenados que establecen un nuevo estado del arte en rendimiento en tareas posteriores a escala de 3 mil millones de parámetros en tareas multilingües, y que igualan el rendimiento actual del estado del arte en inglés a pesar de haber sido entrenados con significativamente menos tokens que otros modelos líderes de 3B. Sin embargo, los modelos RWKV-7 requieren solo un uso de memoria constante y un tiempo de inferencia constante por token. RWKV-7 introduce una nueva formulación generalizada de la regla delta con compuertas de valores vectoriales y tasas de aprendizaje en contexto, así como una regla de reemplazo de valores relajada. Demostramos que RWKV-7 puede realizar seguimiento de estados y reconocer todos los lenguajes regulares, manteniendo al mismo tiempo la capacidad de entrenamiento en paralelo. Esto supera las capacidades de los Transformers bajo conjeturas estándar de complejidad, que están limitados a TC^0. Para demostrar la capacidad de modelado de lenguaje de RWKV-7, también presentamos un corpus multilingüe de código abierto extendido de 3.1 billones de tokens, y entrenamos cuatro modelos RWKV-7 que van desde 0.19 mil millones hasta 2.9 mil millones de parámetros en este conjunto de datos.
Para fomentar la apertura, la reproducción y la adopción, publicamos nuestros modelos y el listado de componentes del conjunto de datos en https://huggingface.co/RWKV, y nuestro código de entrenamiento e inferencia en https://github.com/RWKV/RWKV-LM, todo bajo la Licencia Apache 2.0.
English
We present RWKV-7 "Goose", a new sequence modeling architecture, along with
pre-trained language models that establish a new state-of-the-art in downstream
performance at the 3 billion parameter scale on multilingual tasks, and match
current SoTA English language performance despite being trained on dramatically
fewer tokens than other top 3B models. Nevertheless, RWKV-7 models require only
constant memory usage and constant inference time per token. RWKV-7 introduces
a newly generalized formulation of the delta rule with vector-valued gating and
in-context learning rates, as well as a relaxed value replacement rule. We show
that RWKV-7 can perform state tracking and recognize all regular languages,
while retaining parallelizability of training. This exceeds the capabilities of
Transformers under standard complexity conjectures, which are limited to
TC^0. To demonstrate RWKV-7's language modeling capability, we also
present an extended open source 3.1 trillion token multilingual corpus, and
train four RWKV-7 models ranging from 0.19 billion to 2.9 billion parameters on
this dataset.
To foster openness, reproduction, and adoption, we release our models and
dataset component listing at https://huggingface.co/RWKV, and our training and
inference code at https://github.com/RWKV/RWKV-LM all under the Apache 2.0
License.Summary
AI-Generated Summary