Verjüngte Sprachmodelle

Zusammenfassung

Moderne Sprachmodelle – einschließlich Transformer-, rekurrenter und speicherbasierter Varianten – teilen sich ein gemeinsames Grundgerüst: einen Stapel identischer Schichten, in denen Parameter gleichmäßig über die Tiefe verteilt werden. Diese Voreinstellung stammt vom ursprünglichen Transformer und ist seither weitgehend unverändert geblieben, obwohl eine wachsende Zahl von Belegen darauf hindeutet, dass die Schichten nicht gleichmäßig zum endgültigen Output beitragen – spätere Schichten verfeinern den Residuenstrom eher, als ihn zu transformieren. Wir fragen uns, ob die Parameterkapazität diese Asymmetrie widerspiegeln sollte. Unser kontrolliertes Experiment zeigt, dass bei einem festen Budget die Zuweisung von mehr Kapazität zu früheren Schichten und weniger zu späteren die Perplexität gegenüber einer Baseline mit gleichmäßiger Breite verbessert, während die umgekehrte Zuweisung schadet. Ausgehend von diesem Ergebnis führen wir „Tapered Language Models“ (TLMs) ein, ein Architekturprinzip, bei dem eine parameterhaltige Komponente unter einem festen Gesamtbudget monoton über die Tiefe verjüngt wird (monotonically tapered). MLPs sind der natürliche Ort für diese Umsetzung: Sie dominieren die Parameteranzahl aller modernen LM-Familien und bieten mit der Breite eine einzelne, saubere Variationsebene. Über drei Modellgrößen und vier Architekturen (Transformer, Gated Attention, Hope-Attention und Titans) hinweg verbessert die Verjüngung der MLP-Breite mittels eines glatten Kosinusverlaufs (smooth cosine schedule) durchgängig die Perplexität und die Leistung bei nachgelagerten Benchmarks im Vergleich zu gleichmäßigen Baselines – ohne zusätzlichen Parameter- oder Rechenaufwand. Diese Ergebnisse etablieren die tiefenbewusste Kapazitätsverteilung als eine einfache, architekturunabhängige Achse des Sprachmodelldesigns – einen offensichtlichen, aber bislang verborgenen freien Hebel.

English

Modern language models, including transformer, recurrent, and memory-based variants, share a common chassis: a stack of identical layers in which parameters are allocated uniformly across depth. This is a default inherited from the original transformer and largely unchanged since, yet a growing body of evidence suggests that layers contribute non-uniformly to the final output, with later layers refining the residual stream rather than transforming it. We ask whether parameter capacity should reflect this asymmetry. Our controlled experiment shows that, under a fixed budget, allocating more capacity to earlier layers and less to later layers improves perplexity over a uniform-width baseline, while the reverse allocation hurts. Building on this result, we introduce Tapered Language Models (TLMs), an architectural principle in which a parameter-bearing component is monotonically tapered across depth under a fixed total budget. MLPs are the natural site for this instantiation: they dominate parameter count across all modern LM families and expose width as a single, clean axis of variation. Across three model scales and four architectures (Transformer, Gated Attention, Hope-attention, and Titans), tapering MLP width via a smooth cosine schedule consistently improves perplexity and downstream benchmark performance over uniform baselines, at no additional parameter or compute cost. These findings establish depth-aware capacity allocation as a simple, architecture-agnostic axis of language model design, a free lever hidden in plain sight.