Steigerung der Diversität bei Beibehaltung der Genauigkeit: Textdatengenerierung mit großen Sprachmodellen und menschlichen Eingriffen
Increasing Diversity While Maintaining Accuracy: Text Data Generation with Large Language Models and Human Interventions
June 7, 2023
Autoren: John Joon Young Chung, Ece Kamar, Saleema Amershi
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) können zur Erzeugung von Textdaten für das Training und die Evaluierung anderer Modelle verwendet werden. Die Erstellung hochwertiger Datensätze mit LLMs kann jedoch eine Herausforderung darstellen. In dieser Arbeit untersuchen wir Mensch-KI-Partnerschaften, um eine hohe Diversität und Genauigkeit bei der LLM-basierten Textdatengenerierung zu ermöglichen. Zunächst betrachten wir zwei Ansätze zur Diversifizierung der Textgenerierung: 1) Logit-Unterdrückung, die die Generierung von Sprachen minimiert, die bereits häufig generiert wurden, und 2) Temperatur-Sampling, das die Token-Sampling-Wahrscheinlichkeit abflacht. Wir fanden heraus, dass Diversifizierungsansätze die Datenvielfalt erhöhen können, jedoch oft auf Kosten der Datenqualität (d. h., Text und Labels sind für die Zieldomäne geeignet). Um dieses Problem zu lösen, untersuchten wir zwei menschliche Interventionen: 1) Label-Ersetzung (LR), bei der falsch ausgerichtete Labels korrigiert werden, und 2) Out-of-Scope-Filterung (OOSF), bei der Instanzen entfernt werden, die außerhalb des Interessenbereichs des Benutzers liegen oder auf die kein betrachtetes Label zutrifft. Mit Oracle-Studien fanden wir heraus, dass LR die absolute Genauigkeit von Modellen, die mit diversifizierten Datensätzen trainiert wurden, um 14,4 % erhöht. Darüber hinaus stellten wir fest, dass einige Modelle, die mit Daten trainiert wurden, die mit LR-Interventionen generiert wurden, die LLM-basierte Few-Shot-Klassifikation übertrafen. Im Gegensatz dazu war OOSF nicht effektiv in der Steigerung der Modellgenauigkeit, was die Notwendigkeit zukünftiger Arbeiten in der menschlich unterstützten Textdatengenerierung verdeutlicht.
English
Large language models (LLMs) can be used to generate text data for training
and evaluating other models. However, creating high-quality datasets with LLMs
can be challenging. In this work, we explore human-AI partnerships to
facilitate high diversity and accuracy in LLM-based text data generation. We
first examine two approaches to diversify text generation: 1) logit
suppression, which minimizes the generation of languages that have already been
frequently generated, and 2) temperature sampling, which flattens the token
sampling probability. We found that diversification approaches can increase
data diversity but often at the cost of data accuracy (i.e., text and labels
being appropriate for the target domain). To address this issue, we examined
two human interventions, 1) label replacement (LR), correcting misaligned
labels, and 2) out-of-scope filtering (OOSF), removing instances that are out
of the user's domain of interest or to which no considered label applies. With
oracle studies, we found that LR increases the absolute accuracy of models
trained with diversified datasets by 14.4%. Moreover, we found that some models
trained with data generated with LR interventions outperformed LLM-based
few-shot classification. In contrast, OOSF was not effective in increasing
model accuracy, implying the need for future work in human-in-the-loop text
data generation.