多様性を維持しつつ精度を向上:大規模言語モデルと人的介入によるテキストデータ生成
Increasing Diversity While Maintaining Accuracy: Text Data Generation with Large Language Models and Human Interventions
June 7, 2023
著者: John Joon Young Chung, Ece Kamar, Saleema Amershi
cs.AI
要旨
大規模言語モデル(LLM)は、他のモデルのトレーニングや評価のためのテキストデータを生成するために使用できます。しかし、LLMを用いて高品質なデータセットを作成することは困難です。本研究では、LLMベースのテキストデータ生成において、多様性と正確性を高めるための人間とAIの協力を探ります。まず、テキスト生成の多様化を図る2つのアプローチを検討します:1)ロジット抑制(logit suppression)は、既に頻繁に生成された言語の生成を最小化し、2)温度サンプリング(temperature sampling)は、トークンサンプリングの確率を平坦化します。これらの多様化アプローチはデータの多様性を向上させることがわかりましたが、しばしばデータの正確性(つまり、テキストとラベルが対象ドメインに適していること)を犠牲にすることがわかりました。この問題に対処するために、2つの人間の介入を検討しました:1)ラベル置換(LR)は、不適切なラベルを修正し、2)範囲外フィルタリング(OOSF)は、ユーザーの関心領域外であるか、考慮されたラベルが適用されないインスタンスを削除します。オラクルスタディを通じて、LRが多様化されたデータセットでトレーニングされたモデルの絶対的な正確性を14.4%向上させることがわかりました。さらに、LR介入を用いて生成されたデータでトレーニングされた一部のモデルは、LLMベースの少数ショット分類を上回る性能を示しました。一方、OOSFはモデルの正確性を向上させる効果がなく、人間をループに組み込んだテキストデータ生成の今後の研究の必要性が示唆されました。
English
Large language models (LLMs) can be used to generate text data for training
and evaluating other models. However, creating high-quality datasets with LLMs
can be challenging. In this work, we explore human-AI partnerships to
facilitate high diversity and accuracy in LLM-based text data generation. We
first examine two approaches to diversify text generation: 1) logit
suppression, which minimizes the generation of languages that have already been
frequently generated, and 2) temperature sampling, which flattens the token
sampling probability. We found that diversification approaches can increase
data diversity but often at the cost of data accuracy (i.e., text and labels
being appropriate for the target domain). To address this issue, we examined
two human interventions, 1) label replacement (LR), correcting misaligned
labels, and 2) out-of-scope filtering (OOSF), removing instances that are out
of the user's domain of interest or to which no considered label applies. With
oracle studies, we found that LR increases the absolute accuracy of models
trained with diversified datasets by 14.4%. Moreover, we found that some models
trained with data generated with LR interventions outperformed LLM-based
few-shot classification. In contrast, OOSF was not effective in increasing
model accuracy, implying the need for future work in human-in-the-loop text
data generation.