정확성 유지와 다양성 증대: 대형 언어 모델과 인간 개입을 통한 텍스트 데이터 생성
Increasing Diversity While Maintaining Accuracy: Text Data Generation with Large Language Models and Human Interventions
June 7, 2023
저자: John Joon Young Chung, Ece Kamar, Saleema Amershi
cs.AI
초록
대규모 언어 모델(LLM)은 다른 모델의 훈련 및 평가를 위한 텍스트 데이터를 생성하는 데 사용될 수 있습니다. 그러나 LLM을 사용하여 고품질 데이터셋을 만드는 것은 어려운 과제일 수 있습니다. 본 연구에서는 LLM 기반 텍스트 데이터 생성에서 높은 다양성과 정확성을 달성하기 위해 인간과 AI의 협업 방식을 탐구합니다. 먼저, 텍스트 생성의 다양성을 높이기 위한 두 가지 접근 방식을 검토합니다: 1) 이미 빈번하게 생성된 언어의 생성을 최소화하는 로짓 억제(logit suppression), 그리고 2) 토큰 샘플링 확률을 평탄화하는 온도 샘플링(temperature sampling). 우리는 이러한 다양화 접근 방식이 데이터의 다양성을 증가시킬 수 있지만, 종종 데이터 정확성(즉, 텍스트와 레이블이 대상 도메인에 적합한 정도)의 희생을 초래한다는 사실을 발견했습니다. 이 문제를 해결하기 위해 두 가지 인간 개입 방식을 검토했습니다: 1) 잘못 정렬된 레이블을 수정하는 레이블 교체(LR), 그리고 2) 사용자의 관심 도메인을 벗어나거나 고려된 레이블이 적용되지 않는 사례를 제거하는 범위 외 필터링(OOSF). 오라클 연구를 통해 LR이 다양화된 데이터셋으로 훈련된 모델의 절대 정확도를 14.4% 증가시킨다는 사실을 확인했습니다. 또한, LR 개입으로 생성된 데이터로 훈련된 일부 모델이 LLM 기반의 소수 샷 분류(few-shot classification)를 능가하는 성능을 보였습니다. 반면, OOSF는 모델 정확성을 높이는 데 효과적이지 않았으며, 이는 인간이 참여하는 텍스트 데이터 생성에 대한 향후 연구의 필요성을 시사합니다.
English
Large language models (LLMs) can be used to generate text data for training
and evaluating other models. However, creating high-quality datasets with LLMs
can be challenging. In this work, we explore human-AI partnerships to
facilitate high diversity and accuracy in LLM-based text data generation. We
first examine two approaches to diversify text generation: 1) logit
suppression, which minimizes the generation of languages that have already been
frequently generated, and 2) temperature sampling, which flattens the token
sampling probability. We found that diversification approaches can increase
data diversity but often at the cost of data accuracy (i.e., text and labels
being appropriate for the target domain). To address this issue, we examined
two human interventions, 1) label replacement (LR), correcting misaligned
labels, and 2) out-of-scope filtering (OOSF), removing instances that are out
of the user's domain of interest or to which no considered label applies. With
oracle studies, we found that LR increases the absolute accuracy of models
trained with diversified datasets by 14.4%. Moreover, we found that some models
trained with data generated with LR interventions outperformed LLM-based
few-shot classification. In contrast, OOSF was not effective in increasing
model accuracy, implying the need for future work in human-in-the-loop text
data generation.