Hoe uitlijning de generatieve horizon verkleint
How Alignment Shrinks the Generative Horizon
June 22, 2025
Auteurs: Chenghao Yang, Ari Holtzman
cs.AI
Samenvatting
Ondanks hun indrukwekkende capaciteiten produceren uitgelijnde grote taalmodellen (LLM's) vaak uitvoer die diversiteit mist. Wat veroorzaakt deze stabiliteit in de generatie? Wij onderzoeken dit fenomeen door de lens van waarschijnlijkheidsconcentratie in de uitvoerdistributie van het model. Om deze concentratie te kwantificeren, introduceren we de Vertakkingsfactor (BF) – een token-invariante maat voor het effectieve aantal plausibele volgende stappen tijdens de generatie. Onze empirische analyse onthult twee belangrijke bevindingen: (1) BF neemt vaak af naarmate de generatie vordert, wat suggereert dat LLM's voorspelbaarder worden naarmate ze genereren. (2) uitlijningstuning verscherpt de uitvoerdistributie van het model aanzienlijk vanaf het begin, waardoor BF met bijna een orde van grootte wordt verminderd (bijvoorbeeld van 12 naar 1,2) in vergelijking met basismodellen. Deze sterke reductie helpt verklaren waarom uitgelijnde modellen vaak minder gevoelig lijken voor decodeerstrategieën. Op basis van dit inzicht ontdekken we dat deze stabiliteit verrassende implicaties heeft voor complex redeneren. Uitgelijnde Chain-of-Thought (CoT) modellen (bijvoorbeeld DeepSeek-gedistilleerde modellen) benutten dit effect; door langere redeneerketens te genereren, duwen ze de generatie naar latere, meer deterministische (lagere BF) fasen, wat resulteert in stabielere uitvoer. Wij veronderstellen dat uitlijningstuning het gedrag van een model niet fundamenteel verandert, maar het in plaats daarvan stuurt naar stijlvolle tokens (bijvoorbeeld "Natuurlijk") die reeds aanwezige trajecten met lage entropie in het basismodel ontsluiten. Deze visie wordt ondersteund door nudging-experimenten, die aantonen dat het aansturen van basismodellen met dergelijke tokens BF op een vergelijkbare manier kan verminderen. Samen vestigen onze bevindingen BF als een krachtig diagnostisch hulpmiddel voor het begrijpen en beheersen van LLM-uitvoer – wat verduidelijkt hoe uitlijning variabiliteit vermindert, hoe CoT stabiele generaties bevordert, en hoe basismodellen kunnen worden gestuurd om diversiteit te vermijden.
English
Despite their impressive capabilities, aligned large language models (LLMs)
often generate outputs that lack diversity. What drives this stability in the
generation? We investigate this phenomenon through the lens of probability
concentration in the model's output distribution. To quantify this
concentration, we introduce the Branching Factor (BF) -- a token-invariant
measure of the effective number of plausible next steps during generation. Our
empirical analysis reveals two key findings: (1) BF often decreases as
generation progresses, suggesting that LLMs become more predictable as they
generate. (2) alignment tuning substantially sharpens the model's output
distribution from the outset, reducing BF by nearly an order of magnitude
(e.g., from 12 to 1.2) relative to base models. This stark reduction helps
explain why aligned models often appear less sensitive to decoding strategies.
Building on this insight, we find this stability has surprising implications
for complex reasoning. Aligned Chain-of-Thought (CoT) models (e.g.,
DeepSeek-distilled models), for instance, leverage this effect; by generating
longer reasoning chains, they push generation into later, more deterministic
(lower BF) stages, resulting in more stable outputs. We hypothesize that
alignment tuning does not fundamentally change a model's behavior, but instead
steers it toward stylistic tokens (e.g., "Sure") that unlock low-entropy
trajectories already present in the base model. This view is supported by
nudging experiments, which show that prompting base models with such tokens can
similarly reduce BF. Together, our findings establish BF as a powerful
diagnostic for understanding and controlling LLM outputs - clarifying how
alignment reduces variability, how CoT promotes stable generations, and how
base models can be steered away from diversity.