ChatPaper.aiChatPaper

Hoe uitlijning de generatieve horizon verkleint

How Alignment Shrinks the Generative Horizon

June 22, 2025
Auteurs: Chenghao Yang, Ari Holtzman
cs.AI

Samenvatting

Ondanks hun indrukwekkende capaciteiten produceren uitgelijnde grote taalmodellen (LLM's) vaak uitvoer die diversiteit mist. Wat veroorzaakt deze stabiliteit in de generatie? Wij onderzoeken dit fenomeen door de lens van waarschijnlijkheidsconcentratie in de uitvoerdistributie van het model. Om deze concentratie te kwantificeren, introduceren we de Vertakkingsfactor (BF) – een token-invariante maat voor het effectieve aantal plausibele volgende stappen tijdens de generatie. Onze empirische analyse onthult twee belangrijke bevindingen: (1) BF neemt vaak af naarmate de generatie vordert, wat suggereert dat LLM's voorspelbaarder worden naarmate ze genereren. (2) uitlijningstuning verscherpt de uitvoerdistributie van het model aanzienlijk vanaf het begin, waardoor BF met bijna een orde van grootte wordt verminderd (bijvoorbeeld van 12 naar 1,2) in vergelijking met basismodellen. Deze sterke reductie helpt verklaren waarom uitgelijnde modellen vaak minder gevoelig lijken voor decodeerstrategieën. Op basis van dit inzicht ontdekken we dat deze stabiliteit verrassende implicaties heeft voor complex redeneren. Uitgelijnde Chain-of-Thought (CoT) modellen (bijvoorbeeld DeepSeek-gedistilleerde modellen) benutten dit effect; door langere redeneerketens te genereren, duwen ze de generatie naar latere, meer deterministische (lagere BF) fasen, wat resulteert in stabielere uitvoer. Wij veronderstellen dat uitlijningstuning het gedrag van een model niet fundamenteel verandert, maar het in plaats daarvan stuurt naar stijlvolle tokens (bijvoorbeeld "Natuurlijk") die reeds aanwezige trajecten met lage entropie in het basismodel ontsluiten. Deze visie wordt ondersteund door nudging-experimenten, die aantonen dat het aansturen van basismodellen met dergelijke tokens BF op een vergelijkbare manier kan verminderen. Samen vestigen onze bevindingen BF als een krachtig diagnostisch hulpmiddel voor het begrijpen en beheersen van LLM-uitvoer – wat verduidelijkt hoe uitlijning variabiliteit vermindert, hoe CoT stabiele generaties bevordert, en hoe basismodellen kunnen worden gestuurd om diversiteit te vermijden.
English
Despite their impressive capabilities, aligned large language models (LLMs) often generate outputs that lack diversity. What drives this stability in the generation? We investigate this phenomenon through the lens of probability concentration in the model's output distribution. To quantify this concentration, we introduce the Branching Factor (BF) -- a token-invariant measure of the effective number of plausible next steps during generation. Our empirical analysis reveals two key findings: (1) BF often decreases as generation progresses, suggesting that LLMs become more predictable as they generate. (2) alignment tuning substantially sharpens the model's output distribution from the outset, reducing BF by nearly an order of magnitude (e.g., from 12 to 1.2) relative to base models. This stark reduction helps explain why aligned models often appear less sensitive to decoding strategies. Building on this insight, we find this stability has surprising implications for complex reasoning. Aligned Chain-of-Thought (CoT) models (e.g., DeepSeek-distilled models), for instance, leverage this effect; by generating longer reasoning chains, they push generation into later, more deterministic (lower BF) stages, resulting in more stable outputs. We hypothesize that alignment tuning does not fundamentally change a model's behavior, but instead steers it toward stylistic tokens (e.g., "Sure") that unlock low-entropy trajectories already present in the base model. This view is supported by nudging experiments, which show that prompting base models with such tokens can similarly reduce BF. Together, our findings establish BF as a powerful diagnostic for understanding and controlling LLM outputs - clarifying how alignment reduces variability, how CoT promotes stable generations, and how base models can be steered away from diversity.
PDF71June 24, 2025