SimpleStrat: Het diversifiëren van taalmodelgeneratie met stratificatie

Samenvatting

Het genereren van diverse reacties van grote taalmodellen (LLM's) is cruciaal voor toepassingen zoals planning/zoekopdrachten en synthetische gegevensgeneratie, waar diversiteit verschillende antwoorden over generaties heen oplevert. Eerdere benaderingen vertrouwen op het verhogen van de temperatuur om de diversiteit te vergroten. Echter, in tegenstelling tot wat vaak wordt gedacht, tonen we aan dat deze benadering niet alleen lagere kwaliteit individuele generaties produceert naarmate de temperatuur stijgt, maar ook afhankelijk is van de waarschijnlijkheden van het volgende token van het model die vergelijkbaar zijn met de ware verdeling van antwoorden. We stellen een alternatieve benadering voor die het taalmodel zelf gebruikt om de ruimte in strata te verdelen. Bij inferentie wordt een willekeurig stratum geselecteerd en wordt een steekproef uit het stratum getrokken. Om diversiteit te meten, introduceren we CoverageQA, een dataset van ondergespecificeerde vragen met meerdere even plausibele antwoorden, en beoordelen we diversiteit door de KL-divergentie te meten tussen de uitvoerverdeling en de uniforme verdeling over geldige juiste antwoorden. Aangezien het berekenen van de waarschijnlijkheid per reactie/oplossing voor eigen modellen onhaalbaar is, meten we de recall op de juiste oplossingen. Onze evaluatie toont aan dat het gebruik van SimpleStrat een hogere recall oplevert met 0.05 in vergelijking met GPT-4o en een gemiddelde vermindering van 0.36 in KL-divergentie in vergelijking met Llama 3.

English

Generating diverse responses from large language models (LLMs) is crucial for applications such as planning/search and synthetic data generation, where diversity provides distinct answers across generations. Prior approaches rely on increasing temperature to increase diversity. However, contrary to popular belief, we show not only does this approach produce lower quality individual generations as temperature increases, but it depends on model's next-token probabilities being similar to the true distribution of answers. We propose , an alternative approach that uses the language model itself to partition the space into strata. At inference, a random stratum is selected and a sample drawn from within the strata. To measure diversity, we introduce CoverageQA, a dataset of underspecified questions with multiple equally plausible answers, and assess diversity by measuring KL Divergence between the output distribution and uniform distribution over valid ground truth answers. As computing probability per response/solution for proprietary models is infeasible, we measure recall on ground truth solutions. Our evaluation show using SimpleStrat achieves higher recall by 0.05 compared to GPT-4o and 0.36 average reduction in KL Divergence compared to Llama 3.

SimpleStrat: Het diversifiëren van taalmodelgeneratie met stratificatie

SimpleStrat: Diversifying Language Model Generation with Stratification

Samenvatting

Support