Verbales Sampling: Wie man Modus-Kollaps abmildert und die Diversität von LLMs freisetzt

papers.abstract

Die Nachschulungsausrichtung reduziert oft die Diversität von LLMs, was zu einem Phänomen führt, das als Modus-Kollaps bekannt ist. Im Gegensatz zu früheren Arbeiten, die diesen Effekt auf algorithmische Beschränkungen zurückführen, identifizieren wir einen grundlegenden, allgegenwärtigen datenbasierten Treiber: die Typikalitätsverzerrung in Präferenzdaten, bei der Annotatoren systematisch vertrauten Text bevorzugen, was auf gut etablierte Erkenntnisse der kognitiven Psychologie zurückzuführen ist. Wir formalisieren diese Verzerrung theoretisch, überprüfen sie empirisch anhand von Präferenzdatensätzen und zeigen, dass sie eine zentrale Rolle beim Modus-Kollaps spielt. Motiviert durch diese Analyse führen wir Verbalized Sampling (VS) ein, eine einfache, trainingsfreie Prompting-Strategie, um den Modus-Kollaps zu umgehen. VS fordert das Modell auf, eine Wahrscheinlichkeitsverteilung über eine Reihe von Antworten zu verbalisieren (z. B. „Generiere 5 Witze über Kaffee und ihre entsprechenden Wahrscheinlichkeiten“). Umfassende Experimente zeigen, dass VS die Leistung in den Bereichen kreatives Schreiben (Gedichte, Geschichten, Witze), Dialogsimulation, offene Frage-Antwort-Systeme und synthetische Datengenerierung erheblich verbessert, ohne dabei die faktische Genauigkeit und Sicherheit zu opfern. Beispielsweise steigert VS im kreativen Schreiben die Diversität um das 1,6- bis 2,1-fache im Vergleich zum direkten Prompting. Wir beobachten weiterhin einen aufkommenden Trend, dass leistungsfähigere Modelle stärker von VS profitieren. Zusammenfassend bietet unsere Arbeit eine neue datenzentrierte Perspektive auf den Modus-Kollaps und ein praktisches Inferenzzeit-Mittel, das hilft, die vorab trainierte generative Diversität freizusetzen.

English

Post-training alignment often reduces LLM diversity, leading to a phenomenon known as mode collapse. Unlike prior work that attributes this effect to algorithmic limitations, we identify a fundamental, pervasive data-level driver: typicality bias in preference data, whereby annotators systematically favor familiar text as a result of well-established findings in cognitive psychology. We formalize this bias theoretically, verify it on preference datasets empirically, and show that it plays a central role in mode collapse. Motivated by this analysis, we introduce Verbalized Sampling, a simple, training-free prompting strategy to circumvent mode collapse. VS prompts the model to verbalize a probability distribution over a set of responses (e.g., ``Generate 5 jokes about coffee and their corresponding probabilities''). Comprehensive experiments show that VS significantly improves performance across creative writing (poems, stories, jokes), dialogue simulation, open-ended QA, and synthetic data generation, without sacrificing factual accuracy and safety. For instance, in creative writing, VS increases diversity by 1.6-2.1x over direct prompting. We further observe an emergent trend that more capable models benefit more from VS. In sum, our work provides a new data-centric perspective on mode collapse and a practical inference-time remedy that helps unlock pre-trained generative diversity.

Verbales Sampling: Wie man Modus-Kollaps abmildert und die Diversität von LLMs freisetzt

Verbalized Sampling: How to Mitigate Mode Collapse and Unlock LLM Diversity

papers.abstract

Support