Modelos de Lenguaje Ahusados

Resumen

Los modelos de lenguaje modernos, incluyendo las variantes basadas en transformadores, redes recurrentes y mecanismos de memoria, comparten un chasis común: una pila de capas idénticas en las que los parámetros se distribuyen uniformemente a lo largo de la profundidad. Se trata de un valor por defecto heredado del transformador original y que apenas ha cambiado desde entonces, aunque un creciente cuerpo de evidencia sugiere que las capas contribuyen de manera no uniforme a la salida final, refinando las capas posteriores el flujo residual en lugar de transformarlo. Nos preguntamos si la capacidad paramétrica debería reflejar esta asimetría. Nuestro experimento controlado muestra que, bajo un presupuesto fijo, asignar más capacidad a las capas iniciales y menos a las finales mejora la perplejidad en comparación con una línea base de anchura uniforme, mientras que la asignación inversa la perjudica. Partiendo de este resultado, introducimos los Modelos de Lenguaje con Reducción Gradual (TLMs, por sus siglas en inglés), un principio arquitectónico en el que un componente portador de parámetros se reduce monótonamente a lo largo de la profundidad bajo un presupuesto total fijo. Los MLP (Perceptrones Multicapa) son el lugar natural para esta instanciación: dominan el recuento de parámetros en todas las familias modernas de LM y exponen la anchura como un único eje limpio de variación. A lo largo de tres escalas de modelo y cuatro arquitecturas (Transformador, Atención con Compuerta, Atención-Hope y Titans), la reducción gradual de la anchura de los MLP mediante un programa coseno suave mejora sistemáticamente la perplejidad y el rendimiento en benchmarks descendentes en comparación con las líneas base uniformes, sin coste adicional de parámetros ni computacional. Estos hallazgos establecen la asignación de capacidad consciente de la profundidad como un eje simple y agnóstico a la arquitectura en el diseño de modelos de lenguaje, una palanca gratuita oculta a plena vista.

English

Modern language models, including transformer, recurrent, and memory-based variants, share a common chassis: a stack of identical layers in which parameters are allocated uniformly across depth. This is a default inherited from the original transformer and largely unchanged since, yet a growing body of evidence suggests that layers contribute non-uniformly to the final output, with later layers refining the residual stream rather than transforming it. We ask whether parameter capacity should reflect this asymmetry. Our controlled experiment shows that, under a fixed budget, allocating more capacity to earlier layers and less to later layers improves perplexity over a uniform-width baseline, while the reverse allocation hurts. Building on this result, we introduce Tapered Language Models (TLMs), an architectural principle in which a parameter-bearing component is monotonically tapered across depth under a fixed total budget. MLPs are the natural site for this instantiation: they dominate parameter count across all modern LM families and expose width as a single, clean axis of variation. Across three model scales and four architectures (Transformer, Gated Attention, Hope-attention, and Titans), tapering MLP width via a smooth cosine schedule consistently improves perplexity and downstream benchmark performance over uniform baselines, at no additional parameter or compute cost. These findings establish depth-aware capacity allocation as a simple, architecture-agnostic axis of language model design, a free lever hidden in plain sight.