Un Solo Feedforward Ancho es Todo lo que Necesitas
One Wide Feedforward is All You Need
September 4, 2023
Autores: Telmo Pessoa Pires, António V. Lopes, Yannick Assogba, Hendra Setiawan
cs.AI
Resumen
La arquitectura Transformer tiene dos componentes principales no relacionados con los embeddings: la Atención y la Red de Alimentación Directa (FFN, por sus siglas en inglés). La Atención captura interdependencias entre palabras independientemente de su posición, mientras que la FFN transforma de manera no lineal cada token de entrada de forma independiente. En este trabajo exploramos el papel de la FFN y descubrimos que, a pesar de ocupar una fracción significativa de los parámetros del modelo, es altamente redundante. Concretamente, logramos reducir sustancialmente el número de parámetros con solo una modesta caída en la precisión al eliminar la FFN en las capas del decodificador y compartir una única FFN en el codificador. Finalmente, escalamos esta arquitectura de vuelta a su tamaño original aumentando la dimensión oculta de la FFN compartida, logrando mejoras significativas tanto en precisión como en latencia con respecto al Transformer Big original.
English
The Transformer architecture has two main non-embedding components: Attention
and the Feed Forward Network (FFN). Attention captures interdependencies
between words regardless of their position, while the FFN non-linearly
transforms each input token independently. In this work we explore the role of
the FFN, and find that despite taking up a significant fraction of the model's
parameters, it is highly redundant. Concretely, we are able to substantially
reduce the number of parameters with only a modest drop in accuracy by removing
the FFN on the decoder layers and sharing a single FFN across the encoder.
Finally we scale this architecture back to its original size by increasing the
hidden dimension of the shared FFN, achieving substantial gains in both
accuracy and latency with respect to the original Transformer Big.