SimpleStrat: Diversifizierung der Sprachmodellgenerierung mit Stratifikation
SimpleStrat: Diversifying Language Model Generation with Stratification
October 11, 2024
Autoren: Justin Wong, Yury Orlovskiy, Michael Luo, Sanjit A. Seshia, Joseph E. Gonzalez
cs.AI
Zusammenfassung
Die Erzeugung verschiedener Antworten von großen Sprachmodellen (LLMs) ist entscheidend für Anwendungen wie Planung/Suche und die Erzeugung synthetischer Daten, bei denen Vielfalt unterschiedliche Antworten über Generationen hinweg liefert. Frühere Ansätze verlassen sich darauf, die Temperatur zu erhöhen, um die Vielfalt zu steigern. Im Gegensatz zur gängigen Meinung zeigen wir jedoch, dass dieser Ansatz nicht nur bei steigender Temperatur zu einer geringeren Qualität einzelner Generationen führt, sondern auch davon abhängt, dass die nächsten Token-Wahrscheinlichkeiten des Modells der wahren Verteilung von Antworten ähnlich sind. Wir schlagen eine alternative Methode vor, die das Sprachmodell selbst nutzt, um den Raum in Schichten zu unterteilen. Bei der Inferenz wird eine zufällige Schicht ausgewählt und eine Stichprobe aus dieser Schicht gezogen. Zur Messung der Vielfalt führen wir CoverageQA ein, einen Datensatz von ungenau gestellten Fragen mit mehreren gleichermaßen plausiblen Antworten, und bewerten die Vielfalt, indem wir die KL-Divergenz zwischen der Ausgabeverteilung und der gleichmäßigen Verteilung über gültige richtige Antworten messen. Da die Berechnung der Wahrscheinlichkeit pro Antwort/Lösung für proprietäre Modelle nicht durchführbar ist, messen wir die Wiedererkennung von richtigen Lösungen. Unsere Auswertung zeigt, dass die Verwendung von SimpleStrat eine um 0,05 höhere Wiedererkennung im Vergleich zu GPT-4o und eine durchschnittliche Reduzierung der KL-Divergenz um 0,36 im Vergleich zu Llama 3 erreicht.
English
Generating diverse responses from large language models (LLMs) is crucial for
applications such as planning/search and synthetic data generation, where
diversity provides distinct answers across generations. Prior approaches rely
on increasing temperature to increase diversity. However, contrary to popular
belief, we show not only does this approach produce lower quality individual
generations as temperature increases, but it depends on model's next-token
probabilities being similar to the true distribution of answers. We propose
, an alternative approach that uses the language model itself to
partition the space into strata. At inference, a random stratum is selected and
a sample drawn from within the strata. To measure diversity, we introduce
CoverageQA, a dataset of underspecified questions with multiple equally
plausible answers, and assess diversity by measuring KL Divergence between the
output distribution and uniform distribution over valid ground truth answers.
As computing probability per response/solution for proprietary models is
infeasible, we measure recall on ground truth solutions. Our evaluation show
using SimpleStrat achieves higher recall by 0.05 compared to GPT-4o and 0.36
average reduction in KL Divergence compared to Llama 3.Summary
AI-Generated Summary