SimpleStrat: Het diversifiëren van taalmodelgeneratie met stratificatie
SimpleStrat: Diversifying Language Model Generation with Stratification
October 11, 2024
Auteurs: Justin Wong, Yury Orlovskiy, Michael Luo, Sanjit A. Seshia, Joseph E. Gonzalez
cs.AI
Samenvatting
Het genereren van diverse reacties van grote taalmodellen (LLM's) is cruciaal voor toepassingen zoals planning/zoekopdrachten en synthetische gegevensgeneratie, waar diversiteit verschillende antwoorden over generaties heen oplevert. Eerdere benaderingen vertrouwen op het verhogen van de temperatuur om de diversiteit te vergroten. Echter, in tegenstelling tot wat vaak wordt gedacht, tonen we aan dat deze benadering niet alleen lagere kwaliteit individuele generaties produceert naarmate de temperatuur stijgt, maar ook afhankelijk is van de waarschijnlijkheden van het volgende token van het model die vergelijkbaar zijn met de ware verdeling van antwoorden. We stellen een alternatieve benadering voor die het taalmodel zelf gebruikt om de ruimte in strata te verdelen. Bij inferentie wordt een willekeurig stratum geselecteerd en wordt een steekproef uit het stratum getrokken. Om diversiteit te meten, introduceren we CoverageQA, een dataset van ondergespecificeerde vragen met meerdere even plausibele antwoorden, en beoordelen we diversiteit door de KL-divergentie te meten tussen de uitvoerverdeling en de uniforme verdeling over geldige juiste antwoorden. Aangezien het berekenen van de waarschijnlijkheid per reactie/oplossing voor eigen modellen onhaalbaar is, meten we de recall op de juiste oplossingen. Onze evaluatie toont aan dat het gebruik van SimpleStrat een hogere recall oplevert met 0.05 in vergelijking met GPT-4o en een gemiddelde vermindering van 0.36 in KL-divergentie in vergelijking met Llama 3.
English
Generating diverse responses from large language models (LLMs) is crucial for
applications such as planning/search and synthetic data generation, where
diversity provides distinct answers across generations. Prior approaches rely
on increasing temperature to increase diversity. However, contrary to popular
belief, we show not only does this approach produce lower quality individual
generations as temperature increases, but it depends on model's next-token
probabilities being similar to the true distribution of answers. We propose
, an alternative approach that uses the language model itself to
partition the space into strata. At inference, a random stratum is selected and
a sample drawn from within the strata. To measure diversity, we introduce
CoverageQA, a dataset of underspecified questions with multiple equally
plausible answers, and assess diversity by measuring KL Divergence between the
output distribution and uniform distribution over valid ground truth answers.
As computing probability per response/solution for proprietary models is
infeasible, we measure recall on ground truth solutions. Our evaluation show
using SimpleStrat achieves higher recall by 0.05 compared to GPT-4o and 0.36
average reduction in KL Divergence compared to Llama 3.Summary
AI-Generated Summary