Revisitando a Convenção de Formato dos Modelos de Linguagem Transformer

Resumo

Os modelos de linguagem Transformer densos têm seguido amplamente um formato arquitetônico consistente: cada camada consiste em um módulo de atenção seguido por uma rede feed-forward (FFN) com um MLP estreito-largo-estreito, alocando a maioria dos parâmetros ao MLP com taxas de expansão entre 2 e 4. Motivados por resultados recentes que mostram que MLPs residuais largo-estreito-largo (formato ampulheta) oferecem capacidades superiores de aproximação de funções, revisitamos a convenção de formato de MLP de longa data no Transformer, questionando a necessidade do projeto estreito-largo-estreito. Para estudar isso, desenvolvemos uma variante do Transformer que substitui a FFN convencional por uma FFN mais profunda em formato de ampulheta, compreendendo uma pilha de sub-MLPs em ampulheta conectados por caminhos residuais. Postulamos que uma FFN em ampulheta mais profunda, porém mais leve, pode servir como uma alternativa competitiva à FFN convencional, e que os parâmetros economizados ao usar uma FFN em ampulheta mais leve podem ser utilizados de forma mais eficaz, como ampliando as dimensões ocultas do modelo sob orçamentos fixos. Confirmamos isso por meio de validações empíricas em várias escalas de modelo: FFNs em ampulheta superam as FFNs convencionais até 400M e alcançam desempenho comparável em escalas maiores até 1B de parâmetros; variantes de FFN em ampulheta com FFN reduzida e parâmetros de atenção aumentados mostram melhorias consistentes em relação às configurações convencionais com orçamentos equivalentes. Juntos, esses resultados trazem nova luz a trabalhos recentes e incentivam uma repensar da convenção do MLP estreito-largo-estreito e do equilíbrio entre atenção e FFN em direção a modelos de linguagem modernos eficientes e expressivos.

English

Dense Transformer language models have largely adhered to one consistent architectural shape: each layer consists of an attention module followed by a feed-forward network (FFN) with a narrow-wide-narrow MLP, allocating most parameters to the MLP at expansion ratios between 2 and 4. Motivated by recent results that residual wide-narrow-wide (hourglass) MLPs offer superior function approximation capabilities, we revisit the long-standing MLP shape convention in Transformer, challenging the necessity of the narrow-wide-narrow design. To study this, we develop a Transformer variant that replaces the conventional FFN with a deeper hourglass-shaped FFN, comprising a stack of hourglass sub-MLPs connected by residual pathways. We posit that a deeper but lighter hourglass FFN can serve as a competitive alternative to the conventional FFN, and that parameters saved by using a lighter hourglass FFN can be more effectively utilized, such as by enlarging model hidden dimensions under fixed budgets. We confirm these through empirical validations across model scales: hourglass FFNs outperform conventional FFNs up to 400M and achieve comparable performance at larger scales to 1B parameters; hourglass FFN variants with reduced FFN and increased attention parameters show consistent improvements over conventional configurations at matched budgets. Together, these findings shed new light on recent work and prompt a rethinking of the narrow-wide-narrow MLP convention and the balance between attention and FFN towards efficient and expressive modern language models.

Revisitando a Convenção de Formato dos Modelos de Linguagem Transformer

Revisiting the Shape Convention of Transformer Language Models

Resumo

Support