Diversiteit Vergroten terwijl Nauwkeurigheid Behouden Blijft: Tekstgegevensgeneratie met Grote Taalmodellen en Menselijke Interventies

Samenvatting

Grote taalmodellen (LLM's) kunnen worden gebruikt om tekstdata te genereren voor het trainen en evalueren van andere modellen. Het creëren van hoogwaardige datasets met LLM's kan echter uitdagend zijn. In dit werk onderzoeken we mens-AI-samenwerkingen om een hoge diversiteit en nauwkeurigheid te bevorderen bij het genereren van tekstdata op basis van LLM's. We onderzoeken eerst twee benaderingen om tekstgeneratie te diversifiëren: 1) logitonderdrukking, waarbij de generatie van talen die al frequent zijn gegenereerd, wordt geminimaliseerd, en 2) temperatuurbemonstering, waarbij de tokenbemonsteringswaarschijnlijkheid wordt afgevlakt. We ontdekten dat diversificatiebenaderingen de datadiversiteit kunnen vergroten, maar vaak ten koste van de datanauwkeurigheid (d.w.z. tekst en labels die geschikt zijn voor het doelgebied). Om dit probleem aan te pakken, onderzochten we twee menselijke interventies: 1) labelvervanging (LR), waarbij verkeerd uitgelijnde labels worden gecorrigeerd, en 2) out-of-scope filtering (OOSF), waarbij instanties worden verwijderd die buiten het interessegebied van de gebruiker vallen of waarop geen van de overwogen labels van toepassing is. Met orakelstudies ontdekten we dat LR de absolute nauwkeurigheid van modellen die zijn getraind met gediversifieerde datasets met 14,4% verhoogt. Bovendien ontdekten we dat sommige modellen die zijn getraind met data gegenereerd met LR-interventies, beter presteerden dan LLM-gebaseerde few-shot classificatie. Daarentegen was OOSF niet effectief in het verhogen van de modelnauwkeurigheid, wat de noodzaak aangeeft voor toekomstig werk in mens-in-de-lus tekstdatageneratie.

English

Large language models (LLMs) can be used to generate text data for training and evaluating other models. However, creating high-quality datasets with LLMs can be challenging. In this work, we explore human-AI partnerships to facilitate high diversity and accuracy in LLM-based text data generation. We first examine two approaches to diversify text generation: 1) logit suppression, which minimizes the generation of languages that have already been frequently generated, and 2) temperature sampling, which flattens the token sampling probability. We found that diversification approaches can increase data diversity but often at the cost of data accuracy (i.e., text and labels being appropriate for the target domain). To address this issue, we examined two human interventions, 1) label replacement (LR), correcting misaligned labels, and 2) out-of-scope filtering (OOSF), removing instances that are out of the user's domain of interest or to which no considered label applies. With oracle studies, we found that LR increases the absolute accuracy of models trained with diversified datasets by 14.4%. Moreover, we found that some models trained with data generated with LR interventions outperformed LLM-based few-shot classification. In contrast, OOSF was not effective in increasing model accuracy, implying the need for future work in human-in-the-loop text data generation.

Diversiteit Vergroten terwijl Nauwkeurigheid Behouden Blijft: Tekstgegevensgeneratie met Grote Taalmodellen en Menselijke Interventies

Increasing Diversity While Maintaining Accuracy: Text Data Generation with Large Language Models and Human Interventions

Samenvatting

Support