Comment l'alignement réduit l'horizon génératif
How Alignment Shrinks the Generative Horizon
June 22, 2025
Auteurs: Chenghao Yang, Ari Holtzman
cs.AI
Résumé
Malgré leurs capacités impressionnantes, les grands modèles de langage alignés (LLMs) produisent souvent des sorties qui manquent de diversité. Qu'est-ce qui explique cette stabilité dans la génération ? Nous étudions ce phénomène à travers le prisme de la concentration de probabilité dans la distribution des sorties du modèle. Pour quantifier cette concentration, nous introduisons le Facteur de Branchement (FB) — une mesure invariante par token du nombre effectif d'étapes plausibles suivantes lors de la génération. Notre analyse empirique révèle deux résultats clés : (1) Le FB diminue souvent au fur et à mesure que la génération progresse, suggérant que les LLMs deviennent plus prévisibles au cours de la génération. (2) L'alignement affine considérablement la distribution des sorties du modèle dès le départ, réduisant le FB de près d'un ordre de grandeur (par exemple, de 12 à 1,2) par rapport aux modèles de base. Cette réduction marquée explique pourquoi les modèles alignés semblent souvent moins sensibles aux stratégies de décodage. En nous appuyant sur cette observation, nous constatons que cette stabilité a des implications surprenantes pour le raisonnement complexe. Les modèles alignés de Chaîne de Pensée (CoT) (par exemple, les modèles distillés DeepSeek), par exemple, tirent parti de cet effet ; en générant des chaînes de raisonnement plus longues, ils poussent la génération vers des étapes ultérieures, plus déterministes (FB plus faible), ce qui aboutit à des sorties plus stables. Nous émettons l'hypothèse que l'alignement ne modifie pas fondamentalement le comportement d'un modèle, mais l'oriente plutôt vers des tokens stylistiques (par exemple, "Bien sûr") qui débloquent des trajectoires à faible entropie déjà présentes dans le modèle de base. Cette perspective est étayée par des expériences de nudging, qui montrent qu'inciter les modèles de base avec de tels tokens peut réduire de manière similaire le FB. Ensemble, nos résultats établissent le FB comme un outil diagnostique puissant pour comprendre et contrôler les sorties des LLMs — clarifiant comment l'alignement réduit la variabilité, comment la CoT favorise des générations stables, et comment les modèles de base peuvent être orientés loin de la diversité.
English
Despite their impressive capabilities, aligned large language models (LLMs)
often generate outputs that lack diversity. What drives this stability in the
generation? We investigate this phenomenon through the lens of probability
concentration in the model's output distribution. To quantify this
concentration, we introduce the Branching Factor (BF) -- a token-invariant
measure of the effective number of plausible next steps during generation. Our
empirical analysis reveals two key findings: (1) BF often decreases as
generation progresses, suggesting that LLMs become more predictable as they
generate. (2) alignment tuning substantially sharpens the model's output
distribution from the outset, reducing BF by nearly an order of magnitude
(e.g., from 12 to 1.2) relative to base models. This stark reduction helps
explain why aligned models often appear less sensitive to decoding strategies.
Building on this insight, we find this stability has surprising implications
for complex reasoning. Aligned Chain-of-Thought (CoT) models (e.g.,
DeepSeek-distilled models), for instance, leverage this effect; by generating
longer reasoning chains, they push generation into later, more deterministic
(lower BF) stages, resulting in more stable outputs. We hypothesize that
alignment tuning does not fundamentally change a model's behavior, but instead
steers it toward stylistic tokens (e.g., "Sure") that unlock low-entropy
trajectories already present in the base model. This view is supported by
nudging experiments, which show that prompting base models with such tokens can
similarly reduce BF. Together, our findings establish BF as a powerful
diagnostic for understanding and controlling LLM outputs - clarifying how
alignment reduces variability, how CoT promotes stable generations, and how
base models can be steered away from diversity.