ChatPaper.aiChatPaper

RWKV : Réinventer les RNN pour l'ère des Transformers

RWKV: Reinventing RNNs for the Transformer Era

May 22, 2023
Auteurs: Bo Peng, Eric Alcaide, Quentin Anthony, Alon Albalak, Samuel Arcadinho, Huanqi Cao, Xin Cheng, Michael Chung, Matteo Grella, Kranthi Kiran GV, Xuzheng He, Haowen Hou, Przemyslaw Kazienko, Jan Kocon, Jiaming Kong, Bartlomiej Koptyra, Hayden Lau, Krishna Sri Ipsit Mantri, Ferdinand Mom, Atsushi Saito, Xiangru Tang, Bolun Wang, Johan S. Wind, Stansilaw Wozniak, Ruichong Zhang, Zhenyuan Zhang, Qihang Zhao, Peng Zhou, Jian Zhu, Rui-Jie Zhu
cs.AI

Résumé

Les Transformers ont révolutionné presque toutes les tâches de traitement du langage naturel (NLP), mais souffrent d'une complexité mémoire et computationnelle qui évolue de manière quadratique avec la longueur des séquences. En revanche, les réseaux neuronaux récurrents (RNN) présentent une évolution linéaire en termes de mémoire et de besoins computationnels, mais peinent à égaler les performances des Transformers en raison de limitations en matière de parallélisation et de scalabilité. Nous proposons une nouvelle architecture de modèle, Receptance Weighted Key Value (RWKV), qui combine l'entraînement parallélisable efficace des Transformers avec l'inférence efficace des RNN. Notre approche exploite un mécanisme d'attention linéaire et nous permet de formuler le modèle soit comme un Transformer, soit comme un RNN, ce qui parallélise les calculs pendant l'entraînement et maintient une complexité computationnelle et mémoire constante pendant l'inférence, conduisant à la première architecture non-Transformer à être mise à l'échelle pour des dizaines de milliards de paramètres. Nos expériences montrent que RWKV performe au même niveau que des Transformers de taille similaire, suggérant que les travaux futurs pourront exploiter cette architecture pour créer des modèles plus efficaces. Ce travail représente une avancée significative dans la réconciliation des compromis entre l'efficacité computationnelle et la performance des modèles dans les tâches de traitement de séquences.
English
Transformers have revolutionized almost all natural language processing (NLP) tasks but suffer from memory and computational complexity that scales quadratically with sequence length. In contrast, recurrent neural networks (RNNs) exhibit linear scaling in memory and computational requirements but struggle to match the same performance as Transformers due to limitations in parallelization and scalability. We propose a novel model architecture, Receptance Weighted Key Value (RWKV), that combines the efficient parallelizable training of Transformers with the efficient inference of RNNs. Our approach leverages a linear attention mechanism and allows us to formulate the model as either a Transformer or an RNN, which parallelizes computations during training and maintains constant computational and memory complexity during inference, leading to the first non-transformer architecture to be scaled to tens of billions of parameters. Our experiments reveal that RWKV performs on par with similarly sized Transformers, suggesting that future work can leverage this architecture to create more efficient models. This work presents a significant step towards reconciling the trade-offs between computational efficiency and model performance in sequence processing tasks.
PDF191December 15, 2024