Les Transformers sont des réseaux de neurones récurrents à états multiples.
Transformers are Multi-State RNNs
January 11, 2024
Auteurs: Matanel Oren, Michael Hassid, Yossi Adi, Roy Schwartz
cs.AI
Résumé
Les Transformers sont considérés comme conceptuellement différents par rapport à la génération précédente de modèles NLP de pointe - les réseaux de neurones récurrents (RNNs). Dans ce travail, nous démontrons que les Transformers à décodeur uniquement peuvent en réalité être conceptualisés comme des RNNs multi-états infinis - une variante de RNN avec une taille d'état caché illimitée. Nous montrons en outre que les Transformers pré-entraînés peuvent être convertis en RNNs multi-états finis en fixant la taille de leur état caché. Nous observons que plusieurs techniques existantes de compression de cache des Transformers peuvent être formulées comme de telles politiques de conversion, et nous introduisons une nouvelle politique, TOVA, qui est plus simple que ces politiques. Nos expériences sur plusieurs tâches à long terme indiquent que TOVA surpasse toutes les autres politiques de référence, tout en étant presque à égalité avec le modèle complet (infini), et en utilisant dans certains cas seulement 1/8 de la taille originale du cache. Nos résultats indiquent que les LLMs à décodeur Transformer se comportent souvent en pratique comme des RNNs. Ils ouvrent également la possibilité d'atténuer l'un de leurs goulots d'étranglement computationnels les plus problématiques - la taille de leur mémoire cache. Nous rendons notre code public à l'adresse https://github.com/schwartz-lab-NLP/TOVA.
English
Transformers are considered conceptually different compared to the previous
generation of state-of-the-art NLP models - recurrent neural networks (RNNs).
In this work, we demonstrate that decoder-only transformers can in fact be
conceptualized as infinite multi-state RNNs - an RNN variant with unlimited
hidden state size. We further show that pretrained transformers can be
converted into finite multi-state RNNs by fixing the size of their
hidden state. We observe that several existing transformers cache compression
techniques can be framed as such conversion policies, and introduce a novel
policy, TOVA, which is simpler compared to these policies. Our experiments with
several long range tasks indicate that TOVA outperforms all other baseline
policies, while being nearly on par with the full (infinite) model, and using
in some cases only 1{8} of the original cache size. Our results
indicate that transformer decoder LLMs often behave in practice as RNNs. They
also lay out the option of mitigating one of their most painful computational
bottlenecks - the size of their cache memory. We publicly release our code at
https://github.com/schwartz-lab-NLP/TOVA.