Как согласование сужает генеративный горизонт
How Alignment Shrinks the Generative Horizon
June 22, 2025
Авторы: Chenghao Yang, Ari Holtzman
cs.AI
Аннотация
Несмотря на их впечатляющие возможности, согласованные большие языковые модели (LLM) часто генерируют выходные данные, которым не хватает разнообразия. Что вызывает эту стабильность в генерации? Мы исследуем это явление через призму концентрации вероятностей в распределении выходных данных модели. Чтобы количественно оценить эту концентрацию, мы вводим понятие коэффициента ветвления (Branching Factor, BF) — инвариантной к токенам меры эффективного числа правдоподобных следующих шагов во время генерации. Наш эмпирический анализ выявил два ключевых результата: (1) BF часто уменьшается по мере прогрессирования генерации, что указывает на то, что LLM становятся более предсказуемыми в процессе генерации. (2) настройка согласованности существенно заостряет распределение выходных данных модели с самого начала, уменьшая BF почти на порядок (например, с 12 до 1,2) по сравнению с базовыми моделями. Это резкое снижение помогает объяснить, почему согласованные модели часто кажутся менее чувствительными к стратегиям декодирования. Опираясь на это понимание, мы обнаруживаем, что эта стабильность имеет удивительные последствия для сложных рассуждений. Согласованные модели с цепочкой рассуждений (Chain-of-Thought, CoT), например, модели, полученные методом дистилляции DeepSeek, используют этот эффект; генерируя более длинные цепочки рассуждений, они переводят генерацию на более поздние, более детерминированные (с меньшим BF) этапы, что приводит к более стабильным выходным данным. Мы предполагаем, что настройка согласованности не меняет фундаментально поведение модели, а направляет её на стилистические токены (например, "Конечно"), которые открывают низкоэнтропийные траектории, уже присутствующие в базовой модели. Эта точка зрения подтверждается экспериментами с подталкиванием, которые показывают, что подсказка базовым моделям таких токенов может аналогично снизить BF. В совокупности наши результаты устанавливают BF как мощный диагностический инструмент для понимания и контроля выходных данных LLM — проясняя, как согласованность снижает изменчивость, как CoT способствует стабильной генерации и как базовые модели могут быть направлены в сторону уменьшения разнообразия.
English
Despite their impressive capabilities, aligned large language models (LLMs)
often generate outputs that lack diversity. What drives this stability in the
generation? We investigate this phenomenon through the lens of probability
concentration in the model's output distribution. To quantify this
concentration, we introduce the Branching Factor (BF) -- a token-invariant
measure of the effective number of plausible next steps during generation. Our
empirical analysis reveals two key findings: (1) BF often decreases as
generation progresses, suggesting that LLMs become more predictable as they
generate. (2) alignment tuning substantially sharpens the model's output
distribution from the outset, reducing BF by nearly an order of magnitude
(e.g., from 12 to 1.2) relative to base models. This stark reduction helps
explain why aligned models often appear less sensitive to decoding strategies.
Building on this insight, we find this stability has surprising implications
for complex reasoning. Aligned Chain-of-Thought (CoT) models (e.g.,
DeepSeek-distilled models), for instance, leverage this effect; by generating
longer reasoning chains, they push generation into later, more deterministic
(lower BF) stages, resulting in more stable outputs. We hypothesize that
alignment tuning does not fundamentally change a model's behavior, but instead
steers it toward stylistic tokens (e.g., "Sure") that unlock low-entropy
trajectories already present in the base model. This view is supported by
nudging experiments, which show that prompting base models with such tokens can
similarly reduce BF. Together, our findings establish BF as a powerful
diagnostic for understanding and controlling LLM outputs - clarifying how
alignment reduces variability, how CoT promotes stable generations, and how
base models can be steered away from diversity.