Вербализованная выборка: как смягчить проблему схлопывания мод и раскрыть разнообразие языковых моделей
Verbalized Sampling: How to Mitigate Mode Collapse and Unlock LLM Diversity
October 1, 2025
Авторы: Jiayi Zhang, Simon Yu, Derek Chong, Anthony Sicilia, Michael R. Tomz, Christopher D. Manning, Weiyan Shi
cs.AI
Аннотация
Посттренировочное выравнивание часто снижает разнообразие языковых моделей (LLM), приводя к явлению, известному как коллапс мод. В отличие от предыдущих работ, которые связывают этот эффект с алгоритмическими ограничениями, мы выявляем фундаментальный, повсеместный фактор на уровне данных: типичностное смещение в данных предпочтений, при котором аннотаторы систематически отдают предпочтение знакомым текстам, что объясняется хорошо установленными результатами в когнитивной психологии. Мы формализуем это смещение теоретически, эмпирически подтверждаем его на наборах данных предпочтений и показываем, что оно играет ключевую роль в коллапсе мод. Вдохновленные этим анализом, мы представляем Verbalized Sampling (VS) — простую стратегию подсказок, не требующую дополнительного обучения, чтобы обойти коллапс мод. VS предлагает модели вербализовать распределение вероятностей над набором ответов (например, «Сгенерируй 5 шуток о кофе и их соответствующие вероятности»). Комплексные эксперименты показывают, что VS значительно улучшает производительность в творческом письме (стихи, рассказы, шутки), симуляции диалогов, открытых вопросах-ответах и генерации синтетических данных, не жертвуя фактической точностью и безопасностью. Например, в творческом письме VS увеличивает разнообразие в 1,6–2,1 раза по сравнению с прямым подсказыванием. Мы также наблюдаем возникающую тенденцию, что более мощные модели получают больше пользы от VS. В целом, наша работа предлагает новый, ориентированный на данные взгляд на коллапс мод и практическое решение на этапе вывода, которое помогает раскрыть предварительно обученное генеративное разнообразие.
English
Post-training alignment often reduces LLM diversity, leading to a phenomenon
known as mode collapse. Unlike prior work that attributes this effect to
algorithmic limitations, we identify a fundamental, pervasive data-level
driver: typicality bias in preference data, whereby annotators systematically
favor familiar text as a result of well-established findings in cognitive
psychology. We formalize this bias theoretically, verify it on preference
datasets empirically, and show that it plays a central role in mode collapse.
Motivated by this analysis, we introduce Verbalized Sampling, a simple,
training-free prompting strategy to circumvent mode collapse. VS prompts the
model to verbalize a probability distribution over a set of responses (e.g.,
``Generate 5 jokes about coffee and their corresponding probabilities'').
Comprehensive experiments show that VS significantly improves performance
across creative writing (poems, stories, jokes), dialogue simulation,
open-ended QA, and synthetic data generation, without sacrificing factual
accuracy and safety. For instance, in creative writing, VS increases diversity
by 1.6-2.1x over direct prompting. We further observe an emergent trend that
more capable models benefit more from VS. In sum, our work provides a new
data-centric perspective on mode collapse and a practical inference-time remedy
that helps unlock pre-trained generative diversity.