ПростаяСтрат: Диверсификация Генерации Языковой Модели с Помощью Стратификации
SimpleStrat: Diversifying Language Model Generation with Stratification
October 11, 2024
Авторы: Justin Wong, Yury Orlovskiy, Michael Luo, Sanjit A. Seshia, Joseph E. Gonzalez
cs.AI
Аннотация
Генерация разнообразных ответов с помощью больших языковых моделей (LLM) критически важна для приложений, таких как планирование/поиск и генерация синтетических данных, где разнообразие обеспечивает различные ответы в разных поколениях. Предыдущие подходы полагались на увеличение температуры для повышения разнообразия. Однако, вопреки распространенному мнению, мы показываем, что этот подход не только приводит к уменьшению качества отдельных поколений при увеличении температуры, но и зависит от того, насколько вероятности следующего токена модели схожи с истинным распределением ответов. Мы предлагаем альтернативный подход, который использует саму языковую модель для разбиения пространства на страты. При выводе выбирается случайный страт и из него извлекается образец. Для измерения разнообразия мы представляем набор данных CoverageQA, содержащий недостаточно определенные вопросы с несколькими одинаково вероятными ответами, и оцениваем разнообразие, измеряя дивергенцию Кульбака-Лейблера между распределением вывода и равномерным распределением по допустимым правильным ответам. Поскольку вычисление вероятности для каждого ответа/решения для собственных моделей невозможно, мы измеряем полноту по правильным решениям. Наша оценка показывает, что использование SimpleStrat обеспечивает более высокую полноту на 0.05 по сравнению с GPT-4o и в среднем на 0.36 уменьшает дивергенцию Кульбака-Лейблера по сравнению с Llama 3.
English
Generating diverse responses from large language models (LLMs) is crucial for
applications such as planning/search and synthetic data generation, where
diversity provides distinct answers across generations. Prior approaches rely
on increasing temperature to increase diversity. However, contrary to popular
belief, we show not only does this approach produce lower quality individual
generations as temperature increases, but it depends on model's next-token
probabilities being similar to the true distribution of answers. We propose
, an alternative approach that uses the language model itself to
partition the space into strata. At inference, a random stratum is selected and
a sample drawn from within the strata. To measure diversity, we introduce
CoverageQA, a dataset of underspecified questions with multiple equally
plausible answers, and assess diversity by measuring KL Divergence between the
output distribution and uniform distribution over valid ground truth answers.
As computing probability per response/solution for proprietary models is
infeasible, we measure recall on ground truth solutions. Our evaluation show
using SimpleStrat achieves higher recall by 0.05 compared to GPT-4o and 0.36
average reduction in KL Divergence compared to Llama 3.Summary
AI-Generated Summary