Aumentando a Diversidade Mantendo a Precisão: Geração de Dados Textuais com Modelos de Linguagem de Grande Escala e Intervenções Humanas
Increasing Diversity While Maintaining Accuracy: Text Data Generation with Large Language Models and Human Interventions
June 7, 2023
Autores: John Joon Young Chung, Ece Kamar, Saleema Amershi
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) podem ser usados para gerar dados textuais para treinar e avaliar outros modelos. No entanto, criar conjuntos de dados de alta qualidade com LLMs pode ser desafiador. Neste trabalho, exploramos parcerias humano-IA para facilitar alta diversidade e precisão na geração de dados textuais baseada em LLMs. Primeiro, examinamos duas abordagens para diversificar a geração de texto: 1) supressão de logits, que minimiza a geração de linguagens já frequentemente geradas, e 2) amostragem de temperatura, que nivela a probabilidade de amostragem de tokens. Descobrimos que abordagens de diversificação podem aumentar a diversidade dos dados, mas frequentemente ao custo da precisão dos dados (ou seja, texto e rótulos serem apropriados para o domínio de interesse). Para resolver esse problema, examinamos duas intervenções humanas: 1) substituição de rótulos (LR), corrigindo rótulos desalinhados, e 2) filtragem de fora do escopo (OOSF), removendo instâncias que estão fora do domínio de interesse do usuário ou para as quais nenhum rótulo considerado se aplica. Com estudos oráculos, descobrimos que o LR aumenta a precisão absoluta de modelos treinados com conjuntos de dados diversificados em 14,4%. Além disso, descobrimos que alguns modelos treinados com dados gerados com intervenções de LR superaram a classificação baseada em LLMs com poucos exemplos. Em contraste, o OOSF não foi eficaz em aumentar a precisão do modelo, sugerindo a necessidade de trabalhos futuros em geração de dados textuais com humanos no loop.
English
Large language models (LLMs) can be used to generate text data for training
and evaluating other models. However, creating high-quality datasets with LLMs
can be challenging. In this work, we explore human-AI partnerships to
facilitate high diversity and accuracy in LLM-based text data generation. We
first examine two approaches to diversify text generation: 1) logit
suppression, which minimizes the generation of languages that have already been
frequently generated, and 2) temperature sampling, which flattens the token
sampling probability. We found that diversification approaches can increase
data diversity but often at the cost of data accuracy (i.e., text and labels
being appropriate for the target domain). To address this issue, we examined
two human interventions, 1) label replacement (LR), correcting misaligned
labels, and 2) out-of-scope filtering (OOSF), removing instances that are out
of the user's domain of interest or to which no considered label applies. With
oracle studies, we found that LR increases the absolute accuracy of models
trained with diversified datasets by 14.4%. Moreover, we found that some models
trained with data generated with LR interventions outperformed LLM-based
few-shot classification. In contrast, OOSF was not effective in increasing
model accuracy, implying the need for future work in human-in-the-loop text
data generation.