Wie Ausrichtung den generativen Horizont verkleinert
How Alignment Shrinks the Generative Horizon
June 22, 2025
Autoren: Chenghao Yang, Ari Holtzman
cs.AI
Zusammenfassung
Trotz ihrer beeindruckenden Fähigkeiten erzeugen ausgerichtete große Sprachmodelle (LLMs) oft Ausgaben, denen es an Diversität mangelt. Was treibt diese Stabilität in der Generierung an? Wir untersuchen dieses Phänomen durch die Linse der Wahrscheinlichkeitskonzentration in der Ausgabeverteilung des Modells. Um diese Konzentration zu quantifizieren, führen wir den Verzweigungsfaktor (Branching Factor, BF) ein – ein token-invariantes Maß für die effektive Anzahl plausibler nächster Schritte während der Generierung. Unsere empirische Analyse zeigt zwei zentrale Erkenntnisse: (1) Der BF nimmt oft im Verlauf der Generierung ab, was darauf hindeutet, dass LLMs vorhersehbarer werden, während sie generieren. (2) Das Alignment-Tuning schärft die Ausgabeverteilung des Modells von Beginn an erheblich und reduziert den BF um fast eine Größenordnung (z. B. von 12 auf 1,2) im Vergleich zu Basismodellen. Diese deutliche Reduktion hilft zu erklären, warum ausgerichtete Modelle oft weniger empfindlich auf Dekodierungsstrategien reagieren. Aufbauend auf dieser Erkenntnis stellen wir fest, dass diese Stabilität überraschende Auswirkungen auf komplexes Denken hat. Ausgerichtete Chain-of-Thought (CoT)-Modelle (z. B. DeepSeek-distillierte Modelle) nutzen diesen Effekt; indem sie längere Denkketten generieren, verschieben sie die Generierung in spätere, deterministischere (niedrigerer BF) Stadien, was zu stabileren Ausgaben führt. Wir stellen die Hypothese auf, dass Alignment-Tuning das Verhalten eines Modells nicht grundlegend verändert, sondern es stattdessen auf stilistische Tokens (z. B. „Sicher“) lenkt, die bereits im Basismodell vorhandene Niedrig-Entropie-Pfade freischalten. Diese Sichtweise wird durch Nudging-Experimente gestützt, die zeigen, dass die Eingabe solcher Tokens in Basismodelle den BF ähnlich reduzieren kann. Zusammenfassend etablieren unsere Ergebnisse den BF als ein leistungsstarkes Diagnoseinstrument zum Verständnis und zur Steuerung von LLM-Ausgaben – er klärt, wie Alignment die Variabilität reduziert, wie CoT stabile Generierungen fördert und wie Basismodelle von Diversität weggelenkt werden können.
English
Despite their impressive capabilities, aligned large language models (LLMs)
often generate outputs that lack diversity. What drives this stability in the
generation? We investigate this phenomenon through the lens of probability
concentration in the model's output distribution. To quantify this
concentration, we introduce the Branching Factor (BF) -- a token-invariant
measure of the effective number of plausible next steps during generation. Our
empirical analysis reveals two key findings: (1) BF often decreases as
generation progresses, suggesting that LLMs become more predictable as they
generate. (2) alignment tuning substantially sharpens the model's output
distribution from the outset, reducing BF by nearly an order of magnitude
(e.g., from 12 to 1.2) relative to base models. This stark reduction helps
explain why aligned models often appear less sensitive to decoding strategies.
Building on this insight, we find this stability has surprising implications
for complex reasoning. Aligned Chain-of-Thought (CoT) models (e.g.,
DeepSeek-distilled models), for instance, leverage this effect; by generating
longer reasoning chains, they push generation into later, more deterministic
(lower BF) stages, resulting in more stable outputs. We hypothesize that
alignment tuning does not fundamentally change a model's behavior, but instead
steers it toward stylistic tokens (e.g., "Sure") that unlock low-entropy
trajectories already present in the base model. This view is supported by
nudging experiments, which show that prompting base models with such tokens can
similarly reduce BF. Together, our findings establish BF as a powerful
diagnostic for understanding and controlling LLM outputs - clarifying how
alignment reduces variability, how CoT promotes stable generations, and how
base models can be steered away from diversity.