Accroître la diversité tout en préservant la précision : Génération de données textuelles avec des modèles de langage à grande échelle et interventions humaines
Increasing Diversity While Maintaining Accuracy: Text Data Generation with Large Language Models and Human Interventions
June 7, 2023
Auteurs: John Joon Young Chung, Ece Kamar, Saleema Amershi
cs.AI
Résumé
Les grands modèles de langage (LLM) peuvent être utilisés pour générer des données textuelles destinées à l'entraînement et à l'évaluation d'autres modèles. Cependant, la création de jeux de données de haute qualité avec des LLM peut s'avérer complexe. Dans ce travail, nous explorons des partenariats humain-IA pour favoriser une grande diversité et précision dans la génération de données textuelles basées sur des LLM. Nous examinons d'abord deux approches pour diversifier la génération de texte : 1) la suppression des logits, qui minimise la génération de langages déjà fréquemment produits, et 2) l'échantillonnage par température, qui aplatit la probabilité de sélection des tokens. Nous avons constaté que les approches de diversification peuvent augmenter la diversité des données, mais souvent au détriment de leur précision (c'est-à-dire que le texte et les étiquettes sont adaptés au domaine cible). Pour résoudre ce problème, nous avons examiné deux interventions humaines : 1) le remplacement des étiquettes (LR), qui corrige les étiquettes mal alignées, et 2) le filtrage hors champ (OOSF), qui supprime les instances en dehors du domaine d'intérêt de l'utilisateur ou auxquelles aucune étiquette considérée ne s'applique. Grâce à des études oracles, nous avons constaté que le LR augmente la précision absolue des modèles entraînés avec des jeux de données diversifiés de 14,4 %. De plus, certains modèles entraînés avec des données générées grâce aux interventions LR ont surpassé la classification few-shot basée sur des LLM. En revanche, le OOSF n'a pas été efficace pour augmenter la précision des modèles, ce qui souligne la nécessité de travaux futurs sur la génération de données textuelles en boucle humaine.
English
Large language models (LLMs) can be used to generate text data for training
and evaluating other models. However, creating high-quality datasets with LLMs
can be challenging. In this work, we explore human-AI partnerships to
facilitate high diversity and accuracy in LLM-based text data generation. We
first examine two approaches to diversify text generation: 1) logit
suppression, which minimizes the generation of languages that have already been
frequently generated, and 2) temperature sampling, which flattens the token
sampling probability. We found that diversification approaches can increase
data diversity but often at the cost of data accuracy (i.e., text and labels
being appropriate for the target domain). To address this issue, we examined
two human interventions, 1) label replacement (LR), correcting misaligned
labels, and 2) out-of-scope filtering (OOSF), removing instances that are out
of the user's domain of interest or to which no considered label applies. With
oracle studies, we found that LR increases the absolute accuracy of models
trained with diversified datasets by 14.4%. Moreover, we found that some models
trained with data generated with LR interventions outperformed LLM-based
few-shot classification. In contrast, OOSF was not effective in increasing
model accuracy, implying the need for future work in human-in-the-loop text
data generation.