RWKV: Reinventando las RNN para la Era de los Transformers
RWKV: Reinventing RNNs for the Transformer Era
May 22, 2023
Autores: Bo Peng, Eric Alcaide, Quentin Anthony, Alon Albalak, Samuel Arcadinho, Huanqi Cao, Xin Cheng, Michael Chung, Matteo Grella, Kranthi Kiran GV, Xuzheng He, Haowen Hou, Przemyslaw Kazienko, Jan Kocon, Jiaming Kong, Bartlomiej Koptyra, Hayden Lau, Krishna Sri Ipsit Mantri, Ferdinand Mom, Atsushi Saito, Xiangru Tang, Bolun Wang, Johan S. Wind, Stansilaw Wozniak, Ruichong Zhang, Zhenyuan Zhang, Qihang Zhao, Peng Zhou, Jian Zhu, Rui-Jie Zhu
cs.AI
Resumen
Los Transformers han revolucionado casi todas las tareas de procesamiento de lenguaje natural (PLN), pero sufren de una complejidad de memoria y computación que escala cuadráticamente con la longitud de la secuencia. En contraste, las redes neuronales recurrentes (RNNs) exhiben un escalamiento lineal en los requisitos de memoria y computación, pero luchan por igualar el mismo rendimiento que los Transformers debido a limitaciones en la paralelización y escalabilidad. Proponemos una nueva arquitectura de modelo, Receptance Weighted Key Value (RWKV), que combina el entrenamiento eficiente y paralelizable de los Transformers con la inferencia eficiente de las RNNs. Nuestro enfoque aprovecha un mecanismo de atención lineal y nos permite formular el modelo como un Transformer o una RNN, lo que paraleliza los cálculos durante el entrenamiento y mantiene una complejidad computacional y de memoria constante durante la inferencia, lo que lleva a la primera arquitectura no Transformer que se escala a decenas de miles de millones de parámetros. Nuestros experimentos revelan que RWKV tiene un rendimiento comparable con Transformers de tamaño similar, lo que sugiere que trabajos futuros pueden aprovechar esta arquitectura para crear modelos más eficientes. Este trabajo representa un paso significativo hacia la reconciliación de las compensaciones entre la eficiencia computacional y el rendimiento del modelo en tareas de procesamiento de secuencias.
English
Transformers have revolutionized almost all natural language processing (NLP)
tasks but suffer from memory and computational complexity that scales
quadratically with sequence length. In contrast, recurrent neural networks
(RNNs) exhibit linear scaling in memory and computational requirements but
struggle to match the same performance as Transformers due to limitations in
parallelization and scalability. We propose a novel model architecture,
Receptance Weighted Key Value (RWKV), that combines the efficient
parallelizable training of Transformers with the efficient inference of RNNs.
Our approach leverages a linear attention mechanism and allows us to formulate
the model as either a Transformer or an RNN, which parallelizes computations
during training and maintains constant computational and memory complexity
during inference, leading to the first non-transformer architecture to be
scaled to tens of billions of parameters. Our experiments reveal that RWKV
performs on par with similarly sized Transformers, suggesting that future work
can leverage this architecture to create more efficient models. This work
presents a significant step towards reconciling the trade-offs between
computational efficiency and model performance in sequence processing tasks.