ChatPaper.aiChatPaper

多様性を維持しつつ精度を向上:大規模言語モデルと人的介入によるテキストデータ生成

Increasing Diversity While Maintaining Accuracy: Text Data Generation with Large Language Models and Human Interventions

June 7, 2023
著者: John Joon Young Chung, Ece Kamar, Saleema Amershi
cs.AI

要旨

大規模言語モデル(LLM)は、他のモデルのトレーニングや評価のためのテキストデータを生成するために使用できます。しかし、LLMを用いて高品質なデータセットを作成することは困難です。本研究では、LLMベースのテキストデータ生成において、多様性と正確性を高めるための人間とAIの協力を探ります。まず、テキスト生成の多様化を図る2つのアプローチを検討します:1)ロジット抑制(logit suppression)は、既に頻繁に生成された言語の生成を最小化し、2)温度サンプリング(temperature sampling)は、トークンサンプリングの確率を平坦化します。これらの多様化アプローチはデータの多様性を向上させることがわかりましたが、しばしばデータの正確性(つまり、テキストとラベルが対象ドメインに適していること)を犠牲にすることがわかりました。この問題に対処するために、2つの人間の介入を検討しました:1)ラベル置換(LR)は、不適切なラベルを修正し、2)範囲外フィルタリング(OOSF)は、ユーザーの関心領域外であるか、考慮されたラベルが適用されないインスタンスを削除します。オラクルスタディを通じて、LRが多様化されたデータセットでトレーニングされたモデルの絶対的な正確性を14.4%向上させることがわかりました。さらに、LR介入を用いて生成されたデータでトレーニングされた一部のモデルは、LLMベースの少数ショット分類を上回る性能を示しました。一方、OOSFはモデルの正確性を向上させる効果がなく、人間をループに組み込んだテキストデータ生成の今後の研究の必要性が示唆されました。
English
Large language models (LLMs) can be used to generate text data for training and evaluating other models. However, creating high-quality datasets with LLMs can be challenging. In this work, we explore human-AI partnerships to facilitate high diversity and accuracy in LLM-based text data generation. We first examine two approaches to diversify text generation: 1) logit suppression, which minimizes the generation of languages that have already been frequently generated, and 2) temperature sampling, which flattens the token sampling probability. We found that diversification approaches can increase data diversity but often at the cost of data accuracy (i.e., text and labels being appropriate for the target domain). To address this issue, we examined two human interventions, 1) label replacement (LR), correcting misaligned labels, and 2) out-of-scope filtering (OOSF), removing instances that are out of the user's domain of interest or to which no considered label applies. With oracle studies, we found that LR increases the absolute accuracy of models trained with diversified datasets by 14.4%. Moreover, we found that some models trained with data generated with LR interventions outperformed LLM-based few-shot classification. In contrast, OOSF was not effective in increasing model accuracy, implying the need for future work in human-in-the-loop text data generation.
PDF20December 15, 2024