Como o Alinhamento Reduz o Horizonte Gerativo
How Alignment Shrinks the Generative Horizon
June 22, 2025
Autores: Chenghao Yang, Ari Holtzman
cs.AI
Resumo
Apesar de suas capacidades impressionantes, grandes modelos de linguagem (LLMs) alinhados frequentemente geram saídas que carecem de diversidade. O que impulsiona essa estabilidade na geração? Investigamos esse fenômeno através da lente da concentração de probabilidade na distribuição de saída do modelo. Para quantificar essa concentração, introduzimos o Fator de Ramificação (Branching Factor, BF) — uma medida invariante ao token do número efetivo de próximos passos plausíveis durante a geração. Nossa análise empírica revela duas descobertas principais: (1) O BF frequentemente diminui à medida que a geração avança, sugerindo que os LLMs se tornam mais previsíveis conforme geram. (2) O ajuste de alinhamento afia substancialmente a distribuição de saída do modelo desde o início, reduzindo o BF em quase uma ordem de grandeza (por exemplo, de 12 para 1,2) em relação aos modelos base. Essa redução drástica ajuda a explicar por que modelos alinhados frequentemente parecem menos sensíveis a estratégias de decodificação. Com base nessa percepção, descobrimos que essa estabilidade tem implicações surpreendentes para o raciocínio complexo. Modelos alinhados de Cadeia de Pensamento (Chain-of-Thought, CoT) (por exemplo, modelos destilados do DeepSeek), por exemplo, aproveitam esse efeito; ao gerar cadeias de raciocínio mais longas, eles empurram a geração para estágios posteriores, mais determinísticos (com BF mais baixo), resultando em saídas mais estáveis. Nossa hipótese é que o ajuste de alinhamento não muda fundamentalmente o comportamento de um modelo, mas sim o direciona para tokens estilísticos (por exemplo, "Claro") que desbloqueiam trajetórias de baixa entropia já presentes no modelo base. Essa visão é apoiada por experimentos de indução, que mostram que a solicitação de modelos base com esses tokens pode reduzir o BF de forma semelhante. Juntos, nossos resultados estabelecem o BF como uma ferramenta diagnóstica poderosa para entender e controlar as saídas de LLMs — esclarecendo como o alinhamento reduz a variabilidade, como o CoT promove gerações estáveis e como os modelos base podem ser direcionados para longe da diversidade.
English
Despite their impressive capabilities, aligned large language models (LLMs)
often generate outputs that lack diversity. What drives this stability in the
generation? We investigate this phenomenon through the lens of probability
concentration in the model's output distribution. To quantify this
concentration, we introduce the Branching Factor (BF) -- a token-invariant
measure of the effective number of plausible next steps during generation. Our
empirical analysis reveals two key findings: (1) BF often decreases as
generation progresses, suggesting that LLMs become more predictable as they
generate. (2) alignment tuning substantially sharpens the model's output
distribution from the outset, reducing BF by nearly an order of magnitude
(e.g., from 12 to 1.2) relative to base models. This stark reduction helps
explain why aligned models often appear less sensitive to decoding strategies.
Building on this insight, we find this stability has surprising implications
for complex reasoning. Aligned Chain-of-Thought (CoT) models (e.g.,
DeepSeek-distilled models), for instance, leverage this effect; by generating
longer reasoning chains, they push generation into later, more deterministic
(lower BF) stages, resulting in more stable outputs. We hypothesize that
alignment tuning does not fundamentally change a model's behavior, but instead
steers it toward stylistic tokens (e.g., "Sure") that unlock low-entropy
trajectories already present in the base model. This view is supported by
nudging experiments, which show that prompting base models with such tokens can
similarly reduce BF. Together, our findings establish BF as a powerful
diagnostic for understanding and controlling LLM outputs - clarifying how
alignment reduces variability, how CoT promotes stable generations, and how
base models can be steered away from diversity.