Campionamento Verbalizzato: Come Mitigare il Collasso Modale e Sbloccare la Diversità nei Modelli Linguistici di Grande Dimensione

Abstract

L'allineamento post-addestramento spesso riduce la diversità dei modelli linguistici di grandi dimensioni (LLM), portando a un fenomeno noto come collasso modale. A differenza dei lavori precedenti che attribuiscono questo effetto a limitazioni algoritmiche, identifichiamo un fattore fondamentale e pervasivo a livello di dati: il bias di tipicità nei dati di preferenza, per cui gli annotatori favoriscono sistematicamente testi familiari, come risultato di ben consolidate scoperte nella psicologia cognitiva. Formalizziamo teoricamente questo bias, lo verifichiamo empiricamente su dataset di preferenza e dimostriamo che svolge un ruolo centrale nel collasso modale. Motivati da questa analisi, introduciamo il Campionamento Verbalizzato (Verbalized Sampling, VS), una semplice strategia di prompt senza addestramento per evitare il collasso modale. VS invita il modello a verbalizzare una distribuzione di probabilità su un insieme di risposte (ad esempio, "Genera 5 battute sul caffè e le loro corrispondenti probabilità"). Esperimenti completi dimostrano che VS migliora significativamente le prestazioni in ambiti come la scrittura creativa (poesie, storie, battute), la simulazione di dialoghi, le domande aperte e la generazione di dati sintetici, senza sacrificare l'accuratezza fattuale e la sicurezza. Ad esempio, nella scrittura creativa, VS aumenta la diversità di 1,6-2,1 volte rispetto al prompting diretto. Osserviamo inoltre una tendenza emergente per cui i modelli più capaci traggono maggior beneficio da VS. In sintesi, il nostro lavoro offre una nuova prospettiva centrata sui dati sul collasso modale e un rimedio pratico al momento dell'inferenza che aiuta a sbloccare la diversità generativa pre-addestrata.

English

Post-training alignment often reduces LLM diversity, leading to a phenomenon known as mode collapse. Unlike prior work that attributes this effect to algorithmic limitations, we identify a fundamental, pervasive data-level driver: typicality bias in preference data, whereby annotators systematically favor familiar text as a result of well-established findings in cognitive psychology. We formalize this bias theoretically, verify it on preference datasets empirically, and show that it plays a central role in mode collapse. Motivated by this analysis, we introduce Verbalized Sampling, a simple, training-free prompting strategy to circumvent mode collapse. VS prompts the model to verbalize a probability distribution over a set of responses (e.g., ``Generate 5 jokes about coffee and their corresponding probabilities''). Comprehensive experiments show that VS significantly improves performance across creative writing (poems, stories, jokes), dialogue simulation, open-ended QA, and synthetic data generation, without sacrificing factual accuracy and safety. For instance, in creative writing, VS increases diversity by 1.6-2.1x over direct prompting. We further observe an emergent trend that more capable models benefit more from VS. In sum, our work provides a new data-centric perspective on mode collapse and a practical inference-time remedy that helps unlock pre-trained generative diversity.

Campionamento Verbalizzato: Come Mitigare il Collasso Modale e Sbloccare la Diversità nei Modelli Linguistici di Grande Dimensione

Verbalized Sampling: How to Mitigate Mode Collapse and Unlock LLM Diversity

Abstract

Support