ChatPaper.aiChatPaper

SimpleStrat : Diversification de la génération de modèles de langage avec stratification

SimpleStrat: Diversifying Language Model Generation with Stratification

October 11, 2024
Auteurs: Justin Wong, Yury Orlovskiy, Michael Luo, Sanjit A. Seshia, Joseph E. Gonzalez
cs.AI

Résumé

La génération de réponses diverses à partir de grands modèles de langage (LLM) est cruciale pour des applications telles que la planification/la recherche et la génération de données synthétiques, où la diversité fournit des réponses distinctes à travers les générations. Les approches antérieures reposent sur l'augmentation de la température pour accroître la diversité. Cependant, contrairement à ce que l'on pourrait penser, nous montrons que non seulement cette approche produit des générations individuelles de moindre qualité à mesure que la température augmente, mais elle dépend des probabilités des jetons suivants du modèle étant similaires à la vraie distribution des réponses. Nous proposons une approche alternative qui utilise le modèle de langage lui-même pour partitionner l'espace en strates. Lors de l'inférence, une strate aléatoire est sélectionnée et un échantillon est prélevé à l'intérieur de la strate. Pour mesurer la diversité, nous introduisons CoverageQA, un ensemble de données de questions sous-spécifiées avec plusieurs réponses également plausibles, et évaluons la diversité en mesurant la divergence de Kullback-Leibler entre la distribution de sortie et la distribution uniforme des bonnes réponses valides. Compte tenu de l'impossibilité de calculer la probabilité par réponse/solution pour les modèles propriétaires, nous mesurons le rappel sur les solutions réelles. Notre évaluation montre que l'utilisation de SimpleStrat permet d'obtenir un rappel plus élevé de 0,05 par rapport à GPT-4o et une réduction moyenne de 0,36 de la divergence de KL par rapport à Llama 3.
English
Generating diverse responses from large language models (LLMs) is crucial for applications such as planning/search and synthetic data generation, where diversity provides distinct answers across generations. Prior approaches rely on increasing temperature to increase diversity. However, contrary to popular belief, we show not only does this approach produce lower quality individual generations as temperature increases, but it depends on model's next-token probabilities being similar to the true distribution of answers. We propose , an alternative approach that uses the language model itself to partition the space into strata. At inference, a random stratum is selected and a sample drawn from within the strata. To measure diversity, we introduce CoverageQA, a dataset of underspecified questions with multiple equally plausible answers, and assess diversity by measuring KL Divergence between the output distribution and uniform distribution over valid ground truth answers. As computing probability per response/solution for proprietary models is infeasible, we measure recall on ground truth solutions. Our evaluation show using SimpleStrat achieves higher recall by 0.05 compared to GPT-4o and 0.36 average reduction in KL Divergence compared to Llama 3.

Summary

AI-Generated Summary

PDF42November 16, 2024