Revisitando la Convención de Forma de los Modelos de Lenguaje Transformer

Resumen

Los modelos lingüísticos Transformer densos han seguido mayoritariamente una forma arquitectónica consistente: cada capa consta de un módulo de atención seguido por una red de alimentación directa (FFN) con un MLP de forma estrecha-ancha-estrecha, asignando la mayoría de los parámetros al MLP con ratios de expansión entre 2 y 4. Motivados por resultados recientes que indican que los MLP residuales de forma ancha-estrecha-ancha (con forma de reloj de arena) ofrecen capacidades superiores de aproximación de funciones, revisitamos la convención de forma del MLP en los Transformers, desafiando la necesidad del diseño estrecho-ancho-estrecho. Para estudiar esto, desarrollamos una variante de Transformer que reemplaza la FFN convencional por una FFN más profunda con forma de reloj de arena, compuesta por una pila de sub-MLPs con esta forma conectados mediante rutas residuales. Postulamos que una FFN de reloj de arena más profunda pero más ligera puede servir como una alternativa competitiva a la FFN convencional, y que los parámetros ahorrados al usar una FFN de reloj de arena más ligera pueden utilizarse de manera más efectiva, por ejemplo, ampliando las dimensiones ocultas del modelo bajo presupuestos fijos. Confirmamos esto mediante validaciones empíricas en diferentes escalas de modelos: las FFN de reloj de arena superan a las FFN convencionales hasta los 400M de parámetros y logran un rendimiento comparable a escalas mayores, hasta los 1000M de parámetros; las variantes de FFN de reloj de arena con parámetros reducidos en la FFN y aumentados en la atención muestran mejoras consistentes respecto a las configuraciones convencionales con el mismo presupuesto computacional. En conjunto, estos hallazgos arrojan nueva luz sobre trabajos recientes y motivan un replanteamiento de la convención del MLP estrecho-ancho-estrecho y del equilibrio entre atención y FFN hacia modelos lingüísticos modernos más eficientes y expresivos.

English

Dense Transformer language models have largely adhered to one consistent architectural shape: each layer consists of an attention module followed by a feed-forward network (FFN) with a narrow-wide-narrow MLP, allocating most parameters to the MLP at expansion ratios between 2 and 4. Motivated by recent results that residual wide-narrow-wide (hourglass) MLPs offer superior function approximation capabilities, we revisit the long-standing MLP shape convention in Transformer, challenging the necessity of the narrow-wide-narrow design. To study this, we develop a Transformer variant that replaces the conventional FFN with a deeper hourglass-shaped FFN, comprising a stack of hourglass sub-MLPs connected by residual pathways. We posit that a deeper but lighter hourglass FFN can serve as a competitive alternative to the conventional FFN, and that parameters saved by using a lighter hourglass FFN can be more effectively utilized, such as by enlarging model hidden dimensions under fixed budgets. We confirm these through empirical validations across model scales: hourglass FFNs outperform conventional FFNs up to 400M and achieve comparable performance at larger scales to 1B parameters; hourglass FFN variants with reduced FFN and increased attention parameters show consistent improvements over conventional configurations at matched budgets. Together, these findings shed new light on recent work and prompt a rethinking of the narrow-wide-narrow MLP convention and the balance between attention and FFN towards efficient and expressive modern language models.