ChatPaper.aiChatPaper

Los Transformers son Redes Neuronales Recurrentes de Múltiples Estados.

Transformers are Multi-State RNNs

January 11, 2024
Autores: Matanel Oren, Michael Hassid, Yossi Adi, Roy Schwartz
cs.AI

Resumen

Los Transformers se consideran conceptualmente diferentes en comparación con la generación anterior de modelos de última generación en PLN: las redes neuronales recurrentes (RNN). En este trabajo, demostramos que los transformers de solo decodificación pueden, de hecho, conceptualizarse como RNNs multiestado infinitas, una variante de RNN con un tamaño de estado oculto ilimitado. Además, mostramos que los transformers preentrenados pueden convertirse en RNNs multiestado finitas al fijar el tamaño de su estado oculto. Observamos que varias técnicas existentes de compresión de caché en transformers pueden enmarcarse como tales políticas de conversión, e introducimos una nueva política, TOVA, que es más simple en comparación con estas políticas. Nuestros experimentos con varias tareas de largo alcance indican que TOVA supera a todas las demás políticas de referencia, estando casi a la par con el modelo completo (infinito), y utilizando en algunos casos solo 1/8 del tamaño original de la caché. Nuestros resultados indican que los modelos de lenguaje basados en decodificadores de transformers a menudo se comportan en la práctica como RNNs. También presentan la opción de mitigar uno de sus cuellos de botella computacionales más problemáticos: el tamaño de su memoria caché. Publicamos nuestro código en https://github.com/schwartz-lab-NLP/TOVA.
English
Transformers are considered conceptually different compared to the previous generation of state-of-the-art NLP models - recurrent neural networks (RNNs). In this work, we demonstrate that decoder-only transformers can in fact be conceptualized as infinite multi-state RNNs - an RNN variant with unlimited hidden state size. We further show that pretrained transformers can be converted into finite multi-state RNNs by fixing the size of their hidden state. We observe that several existing transformers cache compression techniques can be framed as such conversion policies, and introduce a novel policy, TOVA, which is simpler compared to these policies. Our experiments with several long range tasks indicate that TOVA outperforms all other baseline policies, while being nearly on par with the full (infinite) model, and using in some cases only 1{8} of the original cache size. Our results indicate that transformer decoder LLMs often behave in practice as RNNs. They also lay out the option of mitigating one of their most painful computational bottlenecks - the size of their cache memory. We publicly release our code at https://github.com/schwartz-lab-NLP/TOVA.
PDF395December 15, 2024