Увеличение разнообразия при сохранении точности: генерация текстовых данных с использованием больших языковых моделей и вмешательства человека
Increasing Diversity While Maintaining Accuracy: Text Data Generation with Large Language Models and Human Interventions
June 7, 2023
Авторы: John Joon Young Chung, Ece Kamar, Saleema Amershi
cs.AI
Аннотация
Крупные языковые модели (LLM) могут использоваться для генерации текстовых данных для обучения и оценки других моделей. Однако создание высококачественных наборов данных с помощью LLM может быть сложной задачей. В данной работе мы исследуем партнерство человека и ИИ для обеспечения высокой разнородности и точности при генерации текстовых данных на основе LLM. Сначала мы рассматриваем два подхода для повышения разнообразия генерации текста: 1) подавление логитов, которое минимизирует генерацию языков, уже часто встречающихся в данных, и 2) температурная выборка, которая сглаживает вероятность выбора токенов. Мы обнаружили, что подходы к диверсификации могут увеличить разнообразие данных, но часто за счет снижения их точности (т.е. соответствия текстов и меток целевому домену). Чтобы решить эту проблему, мы изучили два вида вмешательства человека: 1) замена меток (LR), исправляющая некорректно назначенные метки, и 2) фильтрация выходящих за рамки (OOSF), удаляющая примеры, которые не относятся к интересующему пользователя домену или для которых не подходит ни одна из рассматриваемых меток. В экспериментах с "оракулом" мы выяснили, что LR повышает абсолютную точность моделей, обученных на диверсифицированных данных, на 14,4%. Более того, мы обнаружили, что некоторые модели, обученные на данных, сгенерированных с использованием LR, превосходят классификацию на основе LLM с малым количеством примеров. В то же время OOSF не оказалась эффективной в повышении точности моделей, что указывает на необходимость дальнейших исследований в области генерации текстовых данных с участием человека.
English
Large language models (LLMs) can be used to generate text data for training
and evaluating other models. However, creating high-quality datasets with LLMs
can be challenging. In this work, we explore human-AI partnerships to
facilitate high diversity and accuracy in LLM-based text data generation. We
first examine two approaches to diversify text generation: 1) logit
suppression, which minimizes the generation of languages that have already been
frequently generated, and 2) temperature sampling, which flattens the token
sampling probability. We found that diversification approaches can increase
data diversity but often at the cost of data accuracy (i.e., text and labels
being appropriate for the target domain). To address this issue, we examined
two human interventions, 1) label replacement (LR), correcting misaligned
labels, and 2) out-of-scope filtering (OOSF), removing instances that are out
of the user's domain of interest or to which no considered label applies. With
oracle studies, we found that LR increases the absolute accuracy of models
trained with diversified datasets by 14.4%. Moreover, we found that some models
trained with data generated with LR interventions outperformed LLM-based
few-shot classification. In contrast, OOSF was not effective in increasing
model accuracy, implying the need for future work in human-in-the-loop text
data generation.