Campionamento Verbalizzato: Come Mitigare il Collasso Modale e Sbloccare la Diversità nei Modelli Linguistici di Grande Dimensione
Verbalized Sampling: How to Mitigate Mode Collapse and Unlock LLM Diversity
October 1, 2025
Autori: Jiayi Zhang, Simon Yu, Derek Chong, Anthony Sicilia, Michael R. Tomz, Christopher D. Manning, Weiyan Shi
cs.AI
Abstract
L'allineamento post-addestramento spesso riduce la diversità dei modelli linguistici di grandi dimensioni (LLM), portando a un fenomeno noto come collasso modale. A differenza dei lavori precedenti che attribuiscono questo effetto a limitazioni algoritmiche, identifichiamo un fattore fondamentale e pervasivo a livello di dati: il bias di tipicità nei dati di preferenza, per cui gli annotatori favoriscono sistematicamente testi familiari, come risultato di ben consolidate scoperte nella psicologia cognitiva. Formalizziamo teoricamente questo bias, lo verifichiamo empiricamente su dataset di preferenza e dimostriamo che svolge un ruolo centrale nel collasso modale. Motivati da questa analisi, introduciamo il Campionamento Verbalizzato (Verbalized Sampling, VS), una semplice strategia di prompt senza addestramento per evitare il collasso modale. VS invita il modello a verbalizzare una distribuzione di probabilità su un insieme di risposte (ad esempio, "Genera 5 battute sul caffè e le loro corrispondenti probabilità"). Esperimenti completi dimostrano che VS migliora significativamente le prestazioni in ambiti come la scrittura creativa (poesie, storie, battute), la simulazione di dialoghi, le domande aperte e la generazione di dati sintetici, senza sacrificare l'accuratezza fattuale e la sicurezza. Ad esempio, nella scrittura creativa, VS aumenta la diversità di 1,6-2,1 volte rispetto al prompting diretto. Osserviamo inoltre una tendenza emergente per cui i modelli più capaci traggono maggior beneficio da VS. In sintesi, il nostro lavoro offre una nuova prospettiva centrata sui dati sul collasso modale e un rimedio pratico al momento dell'inferenza che aiuta a sbloccare la diversità generativa pre-addestrata.
English
Post-training alignment often reduces LLM diversity, leading to a phenomenon
known as mode collapse. Unlike prior work that attributes this effect to
algorithmic limitations, we identify a fundamental, pervasive data-level
driver: typicality bias in preference data, whereby annotators systematically
favor familiar text as a result of well-established findings in cognitive
psychology. We formalize this bias theoretically, verify it on preference
datasets empirically, and show that it plays a central role in mode collapse.
Motivated by this analysis, we introduce Verbalized Sampling, a simple,
training-free prompting strategy to circumvent mode collapse. VS prompts the
model to verbalize a probability distribution over a set of responses (e.g.,
``Generate 5 jokes about coffee and their corresponding probabilities'').
Comprehensive experiments show that VS significantly improves performance
across creative writing (poems, stories, jokes), dialogue simulation,
open-ended QA, and synthetic data generation, without sacrificing factual
accuracy and safety. For instance, in creative writing, VS increases diversity
by 1.6-2.1x over direct prompting. We further observe an emergent trend that
more capable models benefit more from VS. In sum, our work provides a new
data-centric perspective on mode collapse and a practical inference-time remedy
that helps unlock pre-trained generative diversity.