언어화 샘플링: 모드 붕괴 완화와 LLM 다양성 확보 방법
Verbalized Sampling: How to Mitigate Mode Collapse and Unlock LLM Diversity
October 1, 2025
저자: Jiayi Zhang, Simon Yu, Derek Chong, Anthony Sicilia, Michael R. Tomz, Christopher D. Manning, Weiyan Shi
cs.AI
초록
사후 정렬(post-training alignment)은 종종 대형 언어 모델(LLM)의 다양성을 감소시키며, 이는 모드 붕괴(mode collapse) 현상으로 알려져 있습니다. 기존 연구들이 이 현상을 알고리즘적 한계로 돌리는 것과 달리, 우리는 인지 심리학에서 잘 알려진 발견에 기인하여 주석자들이 익숙한 텍스트를 체계적으로 선호하는 선호 데이터의 전형성 편향(typicality bias)이라는 근본적이고 보편적인 데이터 수준의 원인을 규명했습니다. 우리는 이 편향을 이론적으로 정형화하고, 선호 데이터셋에서 실증적으로 검증하며, 이 편향이 모드 붕괴에서 중심적인 역할을 한다는 것을 보여줍니다. 이러한 분석에 동기를 부여받아, 우리는 모드 붕괴를 우회하기 위한 간단하고 훈련이 필요 없는 프롬프트 전략인 '언어화 샘플링(Verbalized Sampling, VS)'을 소개합니다. VS는 모델이 일련의 응답에 대한 확률 분포를 언어화하도록 프롬프트합니다(예: "커피에 관한 농담 5개와 그에 해당하는 확률을 생성하세요"). 포괄적인 실험을 통해 VS가 사실적 정확성과 안전성을 희생하지 않으면서 창의적 글쓰기(시, 이야기, 농담), 대화 시뮬레이션, 개방형 질의응답, 합성 데이터 생성 등 다양한 분야에서 성능을 크게 향상시킨다는 것을 보여줍니다. 예를 들어, 창의적 글쓰기에서 VS는 직접 프롬프트에 비해 다양성을 1.6~2.1배 증가시켰습니다. 또한, 더 능력 있는 모델일수록 VS로부터 더 큰 이점을 얻는 새로운 경향을 관찰했습니다. 요약하면, 우리의 연구는 모드 붕괴에 대한 새로운 데이터 중심의 관점과 사전 훈련된 생성 모델의 다양성을 해제하는 데 도움이 되는 실용적인 추론 시점의 해결책을 제공합니다.
English
Post-training alignment often reduces LLM diversity, leading to a phenomenon
known as mode collapse. Unlike prior work that attributes this effect to
algorithmic limitations, we identify a fundamental, pervasive data-level
driver: typicality bias in preference data, whereby annotators systematically
favor familiar text as a result of well-established findings in cognitive
psychology. We formalize this bias theoretically, verify it on preference
datasets empirically, and show that it plays a central role in mode collapse.
Motivated by this analysis, we introduce Verbalized Sampling, a simple,
training-free prompting strategy to circumvent mode collapse. VS prompts the
model to verbalize a probability distribution over a set of responses (e.g.,
``Generate 5 jokes about coffee and their corresponding probabilities'').
Comprehensive experiments show that VS significantly improves performance
across creative writing (poems, stories, jokes), dialogue simulation,
open-ended QA, and synthetic data generation, without sacrificing factual
accuracy and safety. For instance, in creative writing, VS increases diversity
by 1.6-2.1x over direct prompting. We further observe an emergent trend that
more capable models benefit more from VS. In sum, our work provides a new
data-centric perspective on mode collapse and a practical inference-time remedy
that helps unlock pre-trained generative diversity.