ChatPaper.aiChatPaper

Вербализованная выборка: как смягчить проблему схлопывания мод и раскрыть разнообразие языковых моделей

Verbalized Sampling: How to Mitigate Mode Collapse and Unlock LLM Diversity

October 1, 2025
Авторы: Jiayi Zhang, Simon Yu, Derek Chong, Anthony Sicilia, Michael R. Tomz, Christopher D. Manning, Weiyan Shi
cs.AI

Аннотация

Посттренировочное выравнивание часто снижает разнообразие языковых моделей (LLM), приводя к явлению, известному как коллапс мод. В отличие от предыдущих работ, которые связывают этот эффект с алгоритмическими ограничениями, мы выявляем фундаментальный, повсеместный фактор на уровне данных: типичностное смещение в данных предпочтений, при котором аннотаторы систематически отдают предпочтение знакомым текстам, что объясняется хорошо установленными результатами в когнитивной психологии. Мы формализуем это смещение теоретически, эмпирически подтверждаем его на наборах данных предпочтений и показываем, что оно играет ключевую роль в коллапсе мод. Вдохновленные этим анализом, мы представляем Verbalized Sampling (VS) — простую стратегию подсказок, не требующую дополнительного обучения, чтобы обойти коллапс мод. VS предлагает модели вербализовать распределение вероятностей над набором ответов (например, «Сгенерируй 5 шуток о кофе и их соответствующие вероятности»). Комплексные эксперименты показывают, что VS значительно улучшает производительность в творческом письме (стихи, рассказы, шутки), симуляции диалогов, открытых вопросах-ответах и генерации синтетических данных, не жертвуя фактической точностью и безопасностью. Например, в творческом письме VS увеличивает разнообразие в 1,6–2,1 раза по сравнению с прямым подсказыванием. Мы также наблюдаем возникающую тенденцию, что более мощные модели получают больше пользы от VS. В целом, наша работа предлагает новый, ориентированный на данные взгляд на коллапс мод и практическое решение на этапе вывода, которое помогает раскрыть предварительно обученное генеративное разнообразие.
English
Post-training alignment often reduces LLM diversity, leading to a phenomenon known as mode collapse. Unlike prior work that attributes this effect to algorithmic limitations, we identify a fundamental, pervasive data-level driver: typicality bias in preference data, whereby annotators systematically favor familiar text as a result of well-established findings in cognitive psychology. We formalize this bias theoretically, verify it on preference datasets empirically, and show that it plays a central role in mode collapse. Motivated by this analysis, we introduce Verbalized Sampling, a simple, training-free prompting strategy to circumvent mode collapse. VS prompts the model to verbalize a probability distribution over a set of responses (e.g., ``Generate 5 jokes about coffee and their corresponding probabilities''). Comprehensive experiments show that VS significantly improves performance across creative writing (poems, stories, jokes), dialogue simulation, open-ended QA, and synthetic data generation, without sacrificing factual accuracy and safety. For instance, in creative writing, VS increases diversity by 1.6-2.1x over direct prompting. We further observe an emergent trend that more capable models benefit more from VS. In sum, our work provides a new data-centric perspective on mode collapse and a practical inference-time remedy that helps unlock pre-trained generative diversity.
PDF153October 15, 2025