Transformadores de Ancho Variable

Resumen

El escalado del tamaño del modelo, específicamente la profundidad y el ancho, ha impulsado un progreso significativo en los modelos de lenguaje basados en transformers. Sin embargo, la mayoría de las arquitecturas mantienen un ancho constante en todas las capas, asignando un presupuesto fijo de parámetros y cómputo de manera uniforme, a pesar de que diferentes capas podrían desempeñar roles computacionales distintos. En este trabajo, investigamos empíricamente la asignación no uniforme de capacidad a través de la profundidad de la red, proponiendo una arquitectura > <former en forma de reloj de arena. Este diseño mantiene capas iniciales y finales más anchas mientras reduce el ancho de las capas intermedias, utilizando un mecanismo de redimensionamiento residual sin parámetros. En modelos de lenguaje solo decodificador, que van desde 200M hasta 2B de parámetros (densos) y 3B de parámetros (MoE), nuestro > <former supera consistentemente a las líneas base uniformes con parámetros equiparables en cuanto a la pérdida de modelado de lenguaje. Al reducir el ancho promedio de las capas, esta arquitectura también requiere menos FLOPs totales (reducción del 22% bajo curvas de escalado ajustadas con pérdida equivalente) y menor memoria de caché KV y costo de E/S (reducción del 15%). En el análisis, mostramos que esta estructura de cuello de botella genera representaciones cualitativamente diferentes en los flujos residuales. En general, nuestros resultados demuestran que la asignación no uniforme del ancho puede conducir a un escalado más óptimo en términos de recursos de los modelos de lenguaje.

English

Scaling model size, specifically depth and width, has driven significant progress in transformer-based language models. However, most architectures maintain a constant width across all layers, allocating a fixed parameter and computation budget evenly despite different layers potentially playing distinct computational roles. In this work, we empirically investigate nonuniform capacity allocation across network depth by proposing a times-shaped > <former architecture. This design maintains wider early and late layers while narrowing the middle layers, utilizing a parameter-free residual resizing mechanism. Across decoder-only language models ranging from 200M to 2B parameters (dense) and 3B parameters (MoE), our > <former consistently outperforms parameter-matched uniform baselines on language modeling loss. By reducing the average layer width, this architecture also requires fewer overall FLOPs (22% reduction under fitted loss-matched scaling curves) and smaller KV cache memory and I/O cost (15% reduction). In analysis, we show that this bottleneck structure results in qualitatively different representations in residual streams. Overall, our results demonstrate that nonuniform width allocation can result in more resource-optimal scaling of language models.