ChatPaper.aiChatPaper

RWKV: Reinventando las RNN para la Era de los Transformers

RWKV: Reinventing RNNs for the Transformer Era

May 22, 2023
Autores: Bo Peng, Eric Alcaide, Quentin Anthony, Alon Albalak, Samuel Arcadinho, Huanqi Cao, Xin Cheng, Michael Chung, Matteo Grella, Kranthi Kiran GV, Xuzheng He, Haowen Hou, Przemyslaw Kazienko, Jan Kocon, Jiaming Kong, Bartlomiej Koptyra, Hayden Lau, Krishna Sri Ipsit Mantri, Ferdinand Mom, Atsushi Saito, Xiangru Tang, Bolun Wang, Johan S. Wind, Stansilaw Wozniak, Ruichong Zhang, Zhenyuan Zhang, Qihang Zhao, Peng Zhou, Jian Zhu, Rui-Jie Zhu
cs.AI

Resumen

Los Transformers han revolucionado casi todas las tareas de procesamiento de lenguaje natural (PLN), pero sufren de una complejidad de memoria y computación que escala cuadráticamente con la longitud de la secuencia. En contraste, las redes neuronales recurrentes (RNNs) exhiben un escalamiento lineal en los requisitos de memoria y computación, pero luchan por igualar el mismo rendimiento que los Transformers debido a limitaciones en la paralelización y escalabilidad. Proponemos una nueva arquitectura de modelo, Receptance Weighted Key Value (RWKV), que combina el entrenamiento eficiente y paralelizable de los Transformers con la inferencia eficiente de las RNNs. Nuestro enfoque aprovecha un mecanismo de atención lineal y nos permite formular el modelo como un Transformer o una RNN, lo que paraleliza los cálculos durante el entrenamiento y mantiene una complejidad computacional y de memoria constante durante la inferencia, lo que lleva a la primera arquitectura no Transformer que se escala a decenas de miles de millones de parámetros. Nuestros experimentos revelan que RWKV tiene un rendimiento comparable con Transformers de tamaño similar, lo que sugiere que trabajos futuros pueden aprovechar esta arquitectura para crear modelos más eficientes. Este trabajo representa un paso significativo hacia la reconciliación de las compensaciones entre la eficiencia computacional y el rendimiento del modelo en tareas de procesamiento de secuencias.
English
Transformers have revolutionized almost all natural language processing (NLP) tasks but suffer from memory and computational complexity that scales quadratically with sequence length. In contrast, recurrent neural networks (RNNs) exhibit linear scaling in memory and computational requirements but struggle to match the same performance as Transformers due to limitations in parallelization and scalability. We propose a novel model architecture, Receptance Weighted Key Value (RWKV), that combines the efficient parallelizable training of Transformers with the efficient inference of RNNs. Our approach leverages a linear attention mechanism and allows us to formulate the model as either a Transformer or an RNN, which parallelizes computations during training and maintains constant computational and memory complexity during inference, leading to the first non-transformer architecture to be scaled to tens of billions of parameters. Our experiments reveal that RWKV performs on par with similarly sized Transformers, suggesting that future work can leverage this architecture to create more efficient models. This work presents a significant step towards reconciling the trade-offs between computational efficiency and model performance in sequence processing tasks.
PDF191December 15, 2024