ChatPaper.aiChatPaper

Aumentar la Diversidad Manteniendo la Precisión: Generación de Datos de Texto con Modelos de Lenguaje a Gran Escala e Intervenciones Humanas

Increasing Diversity While Maintaining Accuracy: Text Data Generation with Large Language Models and Human Interventions

June 7, 2023
Autores: John Joon Young Chung, Ece Kamar, Saleema Amershi
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) pueden utilizarse para generar datos de texto para entrenar y evaluar otros modelos. Sin embargo, crear conjuntos de datos de alta calidad con LLMs puede ser un desafío. En este trabajo, exploramos asociaciones entre humanos e IA para facilitar una alta diversidad y precisión en la generación de datos de texto basada en LLMs. Primero examinamos dos enfoques para diversificar la generación de texto: 1) la supresión de logits, que minimiza la generación de lenguajes que ya han sido generados con frecuencia, y 2) el muestreo de temperatura, que aplana la probabilidad de muestreo de tokens. Descubrimos que los enfoques de diversificación pueden aumentar la diversidad de los datos, pero a menudo a costa de la precisión de los datos (es decir, que el texto y las etiquetas sean apropiados para el dominio objetivo). Para abordar este problema, examinamos dos intervenciones humanas: 1) la sustitución de etiquetas (LR, por sus siglas en inglés), que corrige etiquetas desalineadas, y 2) el filtrado de fuera de alcance (OOSF, por sus siglas en inglés), que elimina instancias que están fuera del dominio de interés del usuario o a las que no se aplica ninguna etiqueta considerada. Con estudios de oráculo, encontramos que LR aumenta la precisión absoluta de los modelos entrenados con conjuntos de datos diversificados en un 14,4%. Además, descubrimos que algunos modelos entrenados con datos generados con intervenciones de LR superaron la clasificación basada en LLMs con pocos ejemplos. Por el contrario, OOSF no fue efectivo para aumentar la precisión del modelo, lo que implica la necesidad de trabajos futuros en la generación de datos de texto con intervención humana en el ciclo.
English
Large language models (LLMs) can be used to generate text data for training and evaluating other models. However, creating high-quality datasets with LLMs can be challenging. In this work, we explore human-AI partnerships to facilitate high diversity and accuracy in LLM-based text data generation. We first examine two approaches to diversify text generation: 1) logit suppression, which minimizes the generation of languages that have already been frequently generated, and 2) temperature sampling, which flattens the token sampling probability. We found that diversification approaches can increase data diversity but often at the cost of data accuracy (i.e., text and labels being appropriate for the target domain). To address this issue, we examined two human interventions, 1) label replacement (LR), correcting misaligned labels, and 2) out-of-scope filtering (OOSF), removing instances that are out of the user's domain of interest or to which no considered label applies. With oracle studies, we found that LR increases the absolute accuracy of models trained with diversified datasets by 14.4%. Moreover, we found that some models trained with data generated with LR interventions outperformed LLM-based few-shot classification. In contrast, OOSF was not effective in increasing model accuracy, implying the need for future work in human-in-the-loop text data generation.
PDF20December 15, 2024