Aflopende taalmodellen

Samenvatting

Moderne taalmodellen, waaronder transformer-, recurrente en geheugengebaseerde varianten, delen een gemeenschappelijk chassis: een stapel identieke lagen waarin parameters gelijkmatig over de diepte zijn verdeeld. Dit is een standaardinstelling die is overgenomen van de originele transformer en sindsdien grotendeels onveranderd is gebleven, hoewel een groeiende hoeveelheid bewijs suggereert dat lagen op niet-uniforme wijze bijdragen aan de uiteindelijke output, waarbij latere lagen de reststroom verfijnen in plaats van transformeren. We vragen ons af of de parametercapaciteit deze asymmetrie zou moeten weerspiegelen. Ons gecontroleerde experiment laat zien dat, onder een vast budget, het toewijzen van meer capaciteit aan eerdere lagen en minder aan latere lagen de perplexiteit verbetert ten opzichte van een uniforme breedte-baseline, terwijl de omgekeerde toewijzing schadelijk is. Voortbouwend op dit resultaat introduceren we Tapered Language Models (TLM's), een architectonisch principe waarbij een parameterdragende component monotoon taps toeloopt over de diepte onder een vast totaalbudget. MLP's zijn de natuurlijke plaats voor deze instantiatie: ze domineren het parameteraantal in alle moderne LM-families en stellen breedte bloot als een enkele, zuivere variatie-as. Bij drie modelschalen en vier architecturen (Transformer, Gated Attention, Hope-attention en Titans) verbetert het taps laten toelopen van de MLP-breedte via een vloeiend cosinusschema consequent de perplexiteit en de prestaties op downstream-benchmarks ten opzichte van uniforme baselines, zonder extra parameter- of rekenkosten. Deze bevindingen vestigen dieptebewuste capaciteitstoewijzing als een eenvoudige, architectuur-agnostische as van taalmodellontwerp, een vrije hefboom die verborgen in het zicht ligt.

English

Modern language models, including transformer, recurrent, and memory-based variants, share a common chassis: a stack of identical layers in which parameters are allocated uniformly across depth. This is a default inherited from the original transformer and largely unchanged since, yet a growing body of evidence suggests that layers contribute non-uniformly to the final output, with later layers refining the residual stream rather than transforming it. We ask whether parameter capacity should reflect this asymmetry. Our controlled experiment shows that, under a fixed budget, allocating more capacity to earlier layers and less to later layers improves perplexity over a uniform-width baseline, while the reverse allocation hurts. Building on this result, we introduce Tapered Language Models (TLMs), an architectural principle in which a parameter-bearing component is monotonically tapered across depth under a fixed total budget. MLPs are the natural site for this instantiation: they dominate parameter count across all modern LM families and expose width as a single, clean axis of variation. Across three model scales and four architectures (Transformer, Gated Attention, Hope-attention, and Titans), tapering MLP width via a smooth cosine schedule consistently improves perplexity and downstream benchmark performance over uniform baselines, at no additional parameter or compute cost. These findings establish depth-aware capacity allocation as a simple, architecture-agnostic axis of language model design, a free lever hidden in plain sight.