정렬이 생성적 지평을 축소하는 방식
How Alignment Shrinks the Generative Horizon
June 22, 2025
저자: Chenghao Yang, Ari Holtzman
cs.AI
초록
인상적인 성능에도 불구하고, 정렬된 대형 언어 모델(LLM)은 종종 다양성이 부족한 출력을 생성한다. 이러한 생성 과정에서의 안정성은 무엇에 의해 유도되는가? 우리는 모델 출력 분포의 확률 집중이라는 관점에서 이 현상을 조사한다. 이러한 집중을 정량화하기 위해, 우리는 생성 과정 중 가능한 다음 단계의 유효한 수를 측정하는 토큰 불변의 지표인 분기 계수(Branching Factor, BF)를 도입한다. 실증 분석을 통해 두 가지 주요 발견을 얻었다: (1) BF는 생성이 진행됨에 따라 종종 감소하며, 이는 LLM이 생성할수록 더 예측 가능해진다는 것을 시사한다. (2) 정렬 튜닝은 모델의 출력 분포를 초기부터 크게 예리하게 만들어, 기본 모델에 비해 BF를 거의 한 자릿수 수준으로 감소시킨다(예: 12에서 1.2로). 이러한 급격한 감소는 정렬된 모델이 왜 디코딩 전략에 덜 민감하게 보이는지를 설명하는 데 도움을 준다. 이러한 통찰을 바탕으로, 우리는 이 안정성이 복잡한 추론에 놀라운 함의를 가짐을 발견했다. 예를 들어, 정렬된 사고 연쇄(Chain-of-Thought, CoT) 모델(예: DeepSeek-증류 모델)은 이러한 효과를 활용한다; 더 긴 추론 사슬을 생성함으로써, 생성 과정을 후반부의 더 결정론적(낮은 BF) 단계로 밀어 넣어 더 안정적인 출력을 얻는다. 우리는 정렬 튜닝이 모델의 행동을 근본적으로 바꾸는 것이 아니라, 기본 모델에 이미 존재하는 저엔트로피 궤적을 열어주는 스타일리시한 토큰(예: "Sure")을 향해 모델을 조종한다고 가정한다. 이러한 관점은 기본 모델에 이러한 토큰을 사용하여 유도하는 실험을 통해 뒷받침되며, 이는 BF를 유사하게 감소시킬 수 있음을 보여준다. 종합적으로, 우리의 연구 결과는 BF를 LLM 출력을 이해하고 제어하는 강력한 진단 도구로 확립하며, 정렬이 어떻게 변동성을 줄이는지, CoT가 어떻게 안정적인 생성을 촉진하는지, 그리고 기본 모델이 어떻게 다양성에서 벗어나도록 조종될 수 있는지를 명확히 한다.
English
Despite their impressive capabilities, aligned large language models (LLMs)
often generate outputs that lack diversity. What drives this stability in the
generation? We investigate this phenomenon through the lens of probability
concentration in the model's output distribution. To quantify this
concentration, we introduce the Branching Factor (BF) -- a token-invariant
measure of the effective number of plausible next steps during generation. Our
empirical analysis reveals two key findings: (1) BF often decreases as
generation progresses, suggesting that LLMs become more predictable as they
generate. (2) alignment tuning substantially sharpens the model's output
distribution from the outset, reducing BF by nearly an order of magnitude
(e.g., from 12 to 1.2) relative to base models. This stark reduction helps
explain why aligned models often appear less sensitive to decoding strategies.
Building on this insight, we find this stability has surprising implications
for complex reasoning. Aligned Chain-of-Thought (CoT) models (e.g.,
DeepSeek-distilled models), for instance, leverage this effect; by generating
longer reasoning chains, they push generation into later, more deterministic
(lower BF) stages, resulting in more stable outputs. We hypothesize that
alignment tuning does not fundamentally change a model's behavior, but instead
steers it toward stylistic tokens (e.g., "Sure") that unlock low-entropy
trajectories already present in the base model. This view is supported by
nudging experiments, which show that prompting base models with such tokens can
similarly reduce BF. Together, our findings establish BF as a powerful
diagnostic for understanding and controlling LLM outputs - clarifying how
alignment reduces variability, how CoT promotes stable generations, and how
base models can be steered away from diversity.