ChatPaper.aiChatPaper

Wie Ausrichtung den generativen Horizont verkleinert

How Alignment Shrinks the Generative Horizon

June 22, 2025
Autoren: Chenghao Yang, Ari Holtzman
cs.AI

Zusammenfassung

Trotz ihrer beeindruckenden Fähigkeiten erzeugen ausgerichtete große Sprachmodelle (LLMs) oft Ausgaben, denen es an Diversität mangelt. Was treibt diese Stabilität in der Generierung an? Wir untersuchen dieses Phänomen durch die Linse der Wahrscheinlichkeitskonzentration in der Ausgabeverteilung des Modells. Um diese Konzentration zu quantifizieren, führen wir den Verzweigungsfaktor (Branching Factor, BF) ein – ein token-invariantes Maß für die effektive Anzahl plausibler nächster Schritte während der Generierung. Unsere empirische Analyse zeigt zwei zentrale Erkenntnisse: (1) Der BF nimmt oft im Verlauf der Generierung ab, was darauf hindeutet, dass LLMs vorhersehbarer werden, während sie generieren. (2) Das Alignment-Tuning schärft die Ausgabeverteilung des Modells von Beginn an erheblich und reduziert den BF um fast eine Größenordnung (z. B. von 12 auf 1,2) im Vergleich zu Basismodellen. Diese deutliche Reduktion hilft zu erklären, warum ausgerichtete Modelle oft weniger empfindlich auf Dekodierungsstrategien reagieren. Aufbauend auf dieser Erkenntnis stellen wir fest, dass diese Stabilität überraschende Auswirkungen auf komplexes Denken hat. Ausgerichtete Chain-of-Thought (CoT)-Modelle (z. B. DeepSeek-distillierte Modelle) nutzen diesen Effekt; indem sie längere Denkketten generieren, verschieben sie die Generierung in spätere, deterministischere (niedrigerer BF) Stadien, was zu stabileren Ausgaben führt. Wir stellen die Hypothese auf, dass Alignment-Tuning das Verhalten eines Modells nicht grundlegend verändert, sondern es stattdessen auf stilistische Tokens (z. B. „Sicher“) lenkt, die bereits im Basismodell vorhandene Niedrig-Entropie-Pfade freischalten. Diese Sichtweise wird durch Nudging-Experimente gestützt, die zeigen, dass die Eingabe solcher Tokens in Basismodelle den BF ähnlich reduzieren kann. Zusammenfassend etablieren unsere Ergebnisse den BF als ein leistungsstarkes Diagnoseinstrument zum Verständnis und zur Steuerung von LLM-Ausgaben – er klärt, wie Alignment die Variabilität reduziert, wie CoT stabile Generierungen fördert und wie Basismodelle von Diversität weggelenkt werden können.
English
Despite their impressive capabilities, aligned large language models (LLMs) often generate outputs that lack diversity. What drives this stability in the generation? We investigate this phenomenon through the lens of probability concentration in the model's output distribution. To quantify this concentration, we introduce the Branching Factor (BF) -- a token-invariant measure of the effective number of plausible next steps during generation. Our empirical analysis reveals two key findings: (1) BF often decreases as generation progresses, suggesting that LLMs become more predictable as they generate. (2) alignment tuning substantially sharpens the model's output distribution from the outset, reducing BF by nearly an order of magnitude (e.g., from 12 to 1.2) relative to base models. This stark reduction helps explain why aligned models often appear less sensitive to decoding strategies. Building on this insight, we find this stability has surprising implications for complex reasoning. Aligned Chain-of-Thought (CoT) models (e.g., DeepSeek-distilled models), for instance, leverage this effect; by generating longer reasoning chains, they push generation into later, more deterministic (lower BF) stages, resulting in more stable outputs. We hypothesize that alignment tuning does not fundamentally change a model's behavior, but instead steers it toward stylistic tokens (e.g., "Sure") that unlock low-entropy trajectories already present in the base model. This view is supported by nudging experiments, which show that prompting base models with such tokens can similarly reduce BF. Together, our findings establish BF as a powerful diagnostic for understanding and controlling LLM outputs - clarifying how alignment reduces variability, how CoT promotes stable generations, and how base models can be steered away from diversity.
PDF41June 24, 2025