Aumentare la Diversità Mantenendo l'Accuratezza: Generazione di Dati Testuali con Modelli Linguistici di Grande Scala e Interventi Umani
Increasing Diversity While Maintaining Accuracy: Text Data Generation with Large Language Models and Human Interventions
June 7, 2023
Autori: John Joon Young Chung, Ece Kamar, Saleema Amershi
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) possono essere utilizzati per generare dati testuali per l'addestramento e la valutazione di altri modelli. Tuttavia, creare dataset di alta qualità con gli LLM può essere impegnativo. In questo lavoro, esploriamo partnership uomo-IA per facilitare un'elevata diversità e accuratezza nella generazione di dati testuali basata su LLM. Esaminiamo innanzitutto due approcci per diversificare la generazione di testo: 1) la soppressione dei logit, che minimizza la generazione di lingue già frequentemente generate, e 2) il campionamento della temperatura, che appiattisce la probabilità di campionamento dei token. Abbiamo riscontrato che gli approcci di diversificazione possono aumentare la diversità dei dati, ma spesso a scapito dell'accuratezza (cioè, la pertinenza del testo e delle etichette rispetto al dominio target). Per affrontare questo problema, abbiamo esaminato due interventi umani: 1) la sostituzione delle etichette (LR), che corregge le etichette non allineate, e 2) il filtraggio fuori ambito (OOSF), che rimuove le istanze al di fuori del dominio di interesse dell'utente o per le quali non si applica alcuna etichetta considerata. Attraverso studi oracolari, abbiamo scoperto che la LR aumenta l'accuratezza assoluta dei modelli addestrati con dataset diversificati del 14,4%. Inoltre, abbiamo riscontrato che alcuni modelli addestrati con dati generati con interventi LR hanno superato la classificazione few-shot basata su LLM. Al contrario, l'OOSF non si è rivelato efficace nell'aumentare l'accuratezza del modello, suggerendo la necessità di ulteriori lavori futuri sulla generazione di dati testuali con l'uomo nel ciclo.
English
Large language models (LLMs) can be used to generate text data for training
and evaluating other models. However, creating high-quality datasets with LLMs
can be challenging. In this work, we explore human-AI partnerships to
facilitate high diversity and accuracy in LLM-based text data generation. We
first examine two approaches to diversify text generation: 1) logit
suppression, which minimizes the generation of languages that have already been
frequently generated, and 2) temperature sampling, which flattens the token
sampling probability. We found that diversification approaches can increase
data diversity but often at the cost of data accuracy (i.e., text and labels
being appropriate for the target domain). To address this issue, we examined
two human interventions, 1) label replacement (LR), correcting misaligned
labels, and 2) out-of-scope filtering (OOSF), removing instances that are out
of the user's domain of interest or to which no considered label applies. With
oracle studies, we found that LR increases the absolute accuracy of models
trained with diversified datasets by 14.4%. Moreover, we found that some models
trained with data generated with LR interventions outperformed LLM-based
few-shot classification. In contrast, OOSF was not effective in increasing
model accuracy, implying the need for future work in human-in-the-loop text
data generation.