Un Solo Feedforward Ancho es Todo lo que Necesitas

Resumen

La arquitectura Transformer tiene dos componentes principales no relacionados con los embeddings: la Atención y la Red de Alimentación Directa (FFN, por sus siglas en inglés). La Atención captura interdependencias entre palabras independientemente de su posición, mientras que la FFN transforma de manera no lineal cada token de entrada de forma independiente. En este trabajo exploramos el papel de la FFN y descubrimos que, a pesar de ocupar una fracción significativa de los parámetros del modelo, es altamente redundante. Concretamente, logramos reducir sustancialmente el número de parámetros con solo una modesta caída en la precisión al eliminar la FFN en las capas del decodificador y compartir una única FFN en el codificador. Finalmente, escalamos esta arquitectura de vuelta a su tamaño original aumentando la dimensión oculta de la FFN compartida, logrando mejoras significativas tanto en precisión como en latencia con respecto al Transformer Big original.

English

The Transformer architecture has two main non-embedding components: Attention and the Feed Forward Network (FFN). Attention captures interdependencies between words regardless of their position, while the FFN non-linearly transforms each input token independently. In this work we explore the role of the FFN, and find that despite taking up a significant fraction of the model's parameters, it is highly redundant. Concretely, we are able to substantially reduce the number of parameters with only a modest drop in accuracy by removing the FFN on the decoder layers and sharing a single FFN across the encoder. Finally we scale this architecture back to its original size by increasing the hidden dimension of the shared FFN, achieving substantial gains in both accuracy and latency with respect to the original Transformer Big.

Un Solo Feedforward Ancho es Todo lo que Necesitas

One Wide Feedforward is All You Need

Resumen

Support