Diversiteit Vergroten terwijl Nauwkeurigheid Behouden Blijft: Tekstgegevensgeneratie met Grote Taalmodellen en Menselijke Interventies
Increasing Diversity While Maintaining Accuracy: Text Data Generation with Large Language Models and Human Interventions
June 7, 2023
Auteurs: John Joon Young Chung, Ece Kamar, Saleema Amershi
cs.AI
Samenvatting
Grote taalmodellen (LLM's) kunnen worden gebruikt om tekstdata te genereren voor het trainen en evalueren van andere modellen. Het creëren van hoogwaardige datasets met LLM's kan echter uitdagend zijn. In dit werk onderzoeken we mens-AI-samenwerkingen om een hoge diversiteit en nauwkeurigheid te bevorderen bij het genereren van tekstdata op basis van LLM's. We onderzoeken eerst twee benaderingen om tekstgeneratie te diversifiëren: 1) logitonderdrukking, waarbij de generatie van talen die al frequent zijn gegenereerd, wordt geminimaliseerd, en 2) temperatuurbemonstering, waarbij de tokenbemonsteringswaarschijnlijkheid wordt afgevlakt. We ontdekten dat diversificatiebenaderingen de datadiversiteit kunnen vergroten, maar vaak ten koste van de datanauwkeurigheid (d.w.z. tekst en labels die geschikt zijn voor het doelgebied). Om dit probleem aan te pakken, onderzochten we twee menselijke interventies: 1) labelvervanging (LR), waarbij verkeerd uitgelijnde labels worden gecorrigeerd, en 2) out-of-scope filtering (OOSF), waarbij instanties worden verwijderd die buiten het interessegebied van de gebruiker vallen of waarop geen van de overwogen labels van toepassing is. Met orakelstudies ontdekten we dat LR de absolute nauwkeurigheid van modellen die zijn getraind met gediversifieerde datasets met 14,4% verhoogt. Bovendien ontdekten we dat sommige modellen die zijn getraind met data gegenereerd met LR-interventies, beter presteerden dan LLM-gebaseerde few-shot classificatie. Daarentegen was OOSF niet effectief in het verhogen van de modelnauwkeurigheid, wat de noodzaak aangeeft voor toekomstig werk in mens-in-de-lus tekstdatageneratie.
English
Large language models (LLMs) can be used to generate text data for training
and evaluating other models. However, creating high-quality datasets with LLMs
can be challenging. In this work, we explore human-AI partnerships to
facilitate high diversity and accuracy in LLM-based text data generation. We
first examine two approaches to diversify text generation: 1) logit
suppression, which minimizes the generation of languages that have already been
frequently generated, and 2) temperature sampling, which flattens the token
sampling probability. We found that diversification approaches can increase
data diversity but often at the cost of data accuracy (i.e., text and labels
being appropriate for the target domain). To address this issue, we examined
two human interventions, 1) label replacement (LR), correcting misaligned
labels, and 2) out-of-scope filtering (OOSF), removing instances that are out
of the user's domain of interest or to which no considered label applies. With
oracle studies, we found that LR increases the absolute accuracy of models
trained with diversified datasets by 14.4%. Moreover, we found that some models
trained with data generated with LR interventions outperformed LLM-based
few-shot classification. In contrast, OOSF was not effective in increasing
model accuracy, implying the need for future work in human-in-the-loop text
data generation.