アライメントが生成の地平を縮小する仕組み
How Alignment Shrinks the Generative Horizon
June 22, 2025
著者: Chenghao Yang, Ari Holtzman
cs.AI
要旨
その印象的な能力にもかかわらず、アライメントされた大規模言語モデル(LLM)は、多様性に欠ける出力を生成することが多い。この生成における安定性は何によって引き起こされるのだろうか?我々は、モデルの出力分布における確率集中という観点からこの現象を調査する。この集中を定量化するために、生成中の有効な次のステップの数を測定するトークン不変の指標である分岐係数(Branching Factor, BF)を導入する。我々の実証分析から、以下の2つの重要な知見が得られた:(1)BFは生成が進むにつれて減少することが多く、LLMが生成するにつれてより予測可能になることを示唆している。(2)アライメントチューニングは、最初からモデルの出力分布を大幅にシャープにし、ベースモデルに比べてBFをほぼ1桁減少させる(例えば、12から1.2へ)。この顕著な減少は、アライメントされたモデルがデコーディング戦略に対して感度が低く見える理由を説明するのに役立つ。この洞察を基に、我々はこの安定性が複雑な推論に驚くべき影響を与えることを発見した。例えば、アライメントされたChain-of-Thought(CoT)モデル(DeepSeek蒸留モデルなど)は、この効果を活用している。より長い推論チェーンを生成することで、生成を後半のより決定論的(BFが低い)な段階に押し込み、より安定した出力を実現する。我々は、アライメントチューニングがモデルの挙動を根本的に変えるのではなく、ベースモデルに既に存在する低エントロピーの軌道を解放するスタイル的なトークン(例:「Sure」)に向かわせるものであると仮説を立てる。この見解は、ベースモデルにそのようなトークンでプロンプトを与えることで同様にBFを減少させることができるというナッジング実験によって支持されている。全体として、我々の研究結果は、BFがLLMの出力を理解し制御するための強力な診断ツールであることを示している。アライメントが変動性を減少させる仕組み、CoTが安定した生成を促進する仕組み、そしてベースモデルを多様性から遠ざける方法を明らかにしている。
English
Despite their impressive capabilities, aligned large language models (LLMs)
often generate outputs that lack diversity. What drives this stability in the
generation? We investigate this phenomenon through the lens of probability
concentration in the model's output distribution. To quantify this
concentration, we introduce the Branching Factor (BF) -- a token-invariant
measure of the effective number of plausible next steps during generation. Our
empirical analysis reveals two key findings: (1) BF often decreases as
generation progresses, suggesting that LLMs become more predictable as they
generate. (2) alignment tuning substantially sharpens the model's output
distribution from the outset, reducing BF by nearly an order of magnitude
(e.g., from 12 to 1.2) relative to base models. This stark reduction helps
explain why aligned models often appear less sensitive to decoding strategies.
Building on this insight, we find this stability has surprising implications
for complex reasoning. Aligned Chain-of-Thought (CoT) models (e.g.,
DeepSeek-distilled models), for instance, leverage this effect; by generating
longer reasoning chains, they push generation into later, more deterministic
(lower BF) stages, resulting in more stable outputs. We hypothesize that
alignment tuning does not fundamentally change a model's behavior, but instead
steers it toward stylistic tokens (e.g., "Sure") that unlock low-entropy
trajectories already present in the base model. This view is supported by
nudging experiments, which show that prompting base models with such tokens can
similarly reduce BF. Together, our findings establish BF as a powerful
diagnostic for understanding and controlling LLM outputs - clarifying how
alignment reduces variability, how CoT promotes stable generations, and how
base models can be steered away from diversity.