간단한 전략: 계층화를 통한 언어 모델 생성 다양화
SimpleStrat: Diversifying Language Model Generation with Stratification
October 11, 2024
저자: Justin Wong, Yury Orlovskiy, Michael Luo, Sanjit A. Seshia, Joseph E. Gonzalez
cs.AI
초록
대규모 언어 모델(LLM)로부터 다양한 응답을 생성하는 것은 계획/탐색 및 합성 데이터 생성과 같은 응용 프로그램에 있어서 중요하며, 이러한 다양성은 세대 간에 구별되는 답변을 제공합니다. 이전 방법은 다양성을 증가시키기 위해 온도를 높이는 데 의존했습니다. 그러나 일반적인 믿음과는 달리, 이 접근 방식이 온도가 증가함에 따라 개별 세대의 품질을 낮추는 것뿐만 아니라, 모델의 다음 토큰 확률이 정답의 실제 분포와 유사해야만 한다는 것을 보여줍니다. 우리는, 모델 자체를 사용하여 공간을 계층으로 분할하는 대안적인 방법을 제안합니다. 추론 시, 무작위 계층이 선택되고 해당 계층 내에서 샘플이 추출됩니다. 다양성을 측정하기 위해, 우리는 다수의 동등하게 타당한 답변을 가진 미정의 질문 데이터 세트인 CoverageQA를 소개하고, 출력 분포와 유효한 정답의 균일 분포 사이의 KL 다이버전스를 측정하여 다양성을 평가합니다. 전용 모델에 대한 각 응답/해결책의 확률을 계산하는 것은 현실적이지 않기 때문에, 우리는 정답 솔루션에 대한 회수를 측정합니다. 우리의 평가 결과, SimpleStrat을 사용하면 GPT-4o 대비 0.05 더 높은 회수와 Llama 3 대비 평균 0.36의 KL 다이버전스 감소가 달성됨을 보여줍니다.
English
Generating diverse responses from large language models (LLMs) is crucial for
applications such as planning/search and synthetic data generation, where
diversity provides distinct answers across generations. Prior approaches rely
on increasing temperature to increase diversity. However, contrary to popular
belief, we show not only does this approach produce lower quality individual
generations as temperature increases, but it depends on model's next-token
probabilities being similar to the true distribution of answers. We propose
, an alternative approach that uses the language model itself to
partition the space into strata. At inference, a random stratum is selected and
a sample drawn from within the strata. To measure diversity, we introduce
CoverageQA, a dataset of underspecified questions with multiple equally
plausible answers, and assess diversity by measuring KL Divergence between the
output distribution and uniform distribution over valid ground truth answers.
As computing probability per response/solution for proprietary models is
infeasible, we measure recall on ground truth solutions. Our evaluation show
using SimpleStrat achieves higher recall by 0.05 compared to GPT-4o and 0.36
average reduction in KL Divergence compared to Llama 3.Summary
AI-Generated Summary