ПростаяСтрат: Диверсификация Генерации Языковой Модели с Помощью Стратификации

Аннотация

Генерация разнообразных ответов с помощью больших языковых моделей (LLM) критически важна для приложений, таких как планирование/поиск и генерация синтетических данных, где разнообразие обеспечивает различные ответы в разных поколениях. Предыдущие подходы полагались на увеличение температуры для повышения разнообразия. Однако, вопреки распространенному мнению, мы показываем, что этот подход не только приводит к уменьшению качества отдельных поколений при увеличении температуры, но и зависит от того, насколько вероятности следующего токена модели схожи с истинным распределением ответов. Мы предлагаем альтернативный подход, который использует саму языковую модель для разбиения пространства на страты. При выводе выбирается случайный страт и из него извлекается образец. Для измерения разнообразия мы представляем набор данных CoverageQA, содержащий недостаточно определенные вопросы с несколькими одинаково вероятными ответами, и оцениваем разнообразие, измеряя дивергенцию Кульбака-Лейблера между распределением вывода и равномерным распределением по допустимым правильным ответам. Поскольку вычисление вероятности для каждого ответа/решения для собственных моделей невозможно, мы измеряем полноту по правильным решениям. Наша оценка показывает, что использование SimpleStrat обеспечивает более высокую полноту на 0.05 по сравнению с GPT-4o и в среднем на 0.36 уменьшает дивергенцию Кульбака-Лейблера по сравнению с Llama 3.

English

Generating diverse responses from large language models (LLMs) is crucial for applications such as planning/search and synthetic data generation, where diversity provides distinct answers across generations. Prior approaches rely on increasing temperature to increase diversity. However, contrary to popular belief, we show not only does this approach produce lower quality individual generations as temperature increases, but it depends on model's next-token probabilities being similar to the true distribution of answers. We propose , an alternative approach that uses the language model itself to partition the space into strata. At inference, a random stratum is selected and a sample drawn from within the strata. To measure diversity, we introduce CoverageQA, a dataset of underspecified questions with multiple equally plausible answers, and assess diversity by measuring KL Divergence between the output distribution and uniform distribution over valid ground truth answers. As computing probability per response/solution for proprietary models is infeasible, we measure recall on ground truth solutions. Our evaluation show using SimpleStrat achieves higher recall by 0.05 compared to GPT-4o and 0.36 average reduction in KL Divergence compared to Llama 3.

ПростаяСтрат: Диверсификация Генерации Языковой Модели с Помощью Стратификации

SimpleStrat: Diversifying Language Model Generation with Stratification

Аннотация

Support