SimpleStrat : Diversification de la génération de modèles de langage avec stratification
SimpleStrat: Diversifying Language Model Generation with Stratification
October 11, 2024
Auteurs: Justin Wong, Yury Orlovskiy, Michael Luo, Sanjit A. Seshia, Joseph E. Gonzalez
cs.AI
Résumé
La génération de réponses diverses à partir de grands modèles de langage (LLM) est cruciale pour des applications telles que la planification/la recherche et la génération de données synthétiques, où la diversité fournit des réponses distinctes à travers les générations. Les approches antérieures reposent sur l'augmentation de la température pour accroître la diversité. Cependant, contrairement à ce que l'on pourrait penser, nous montrons que non seulement cette approche produit des générations individuelles de moindre qualité à mesure que la température augmente, mais elle dépend des probabilités des jetons suivants du modèle étant similaires à la vraie distribution des réponses. Nous proposons une approche alternative qui utilise le modèle de langage lui-même pour partitionner l'espace en strates. Lors de l'inférence, une strate aléatoire est sélectionnée et un échantillon est prélevé à l'intérieur de la strate. Pour mesurer la diversité, nous introduisons CoverageQA, un ensemble de données de questions sous-spécifiées avec plusieurs réponses également plausibles, et évaluons la diversité en mesurant la divergence de Kullback-Leibler entre la distribution de sortie et la distribution uniforme des bonnes réponses valides. Compte tenu de l'impossibilité de calculer la probabilité par réponse/solution pour les modèles propriétaires, nous mesurons le rappel sur les solutions réelles. Notre évaluation montre que l'utilisation de SimpleStrat permet d'obtenir un rappel plus élevé de 0,05 par rapport à GPT-4o et une réduction moyenne de 0,36 de la divergence de KL par rapport à Llama 3.
English
Generating diverse responses from large language models (LLMs) is crucial for
applications such as planning/search and synthetic data generation, where
diversity provides distinct answers across generations. Prior approaches rely
on increasing temperature to increase diversity. However, contrary to popular
belief, we show not only does this approach produce lower quality individual
generations as temperature increases, but it depends on model's next-token
probabilities being similar to the true distribution of answers. We propose
, an alternative approach that uses the language model itself to
partition the space into strata. At inference, a random stratum is selected and
a sample drawn from within the strata. To measure diversity, we introduce
CoverageQA, a dataset of underspecified questions with multiple equally
plausible answers, and assess diversity by measuring KL Divergence between the
output distribution and uniform distribution over valid ground truth answers.
As computing probability per response/solution for proprietary models is
infeasible, we measure recall on ground truth solutions. Our evaluation show
using SimpleStrat achieves higher recall by 0.05 compared to GPT-4o and 0.36
average reduction in KL Divergence compared to Llama 3.Summary
AI-Generated Summary