ChatPaper.aiChatPaper

¡Trae Tus Propios Datos! Evaluación Autosupervisada para Modelos de Lenguaje a Gran Escala

Bring Your Own Data! Self-Supervised Evaluation for Large Language Models

June 23, 2023
Autores: Neel Jain, Khalid Saifullah, Yuxin Wen, John Kirchenbauer, Manli Shu, Aniruddha Saha, Micah Goldblum, Jonas Geiping, Tom Goldstein
cs.AI

Resumen

Con el auge de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) y su despliegue omnipresente en diversos dominios, es imperativo medir el comportamiento de estos modelos en datos realistas. Por ejemplo, una empresa que implementa un chatbot orientado al cliente debe asegurarse de que el modelo no responda a las solicitudes de los clientes con lenguaje soez. Las evaluaciones actuales abordan este problema utilizando conjuntos de datos pequeños y específicos del dominio, con etiquetas curadas por humanos. Estos conjuntos de evaluación suelen estar muestreados de una distribución estrecha y simplificada, y las fuentes de datos pueden filtrarse inadvertidamente en el conjunto de entrenamiento, lo que puede llevar a evaluaciones engañosas. Para sortear estos inconvenientes, proponemos un marco para la evaluación autosupervisada de LLMs mediante el análisis de su sensibilidad o invariancia a transformaciones en el texto de entrada. La evaluación autosupervisada puede monitorear directamente el comportamiento de los LLMs en conjuntos de datos recopilados en entornos reales o transmitidos durante el despliegue en vivo del modelo. Demostramos estrategias de evaluación autosupervisada para medir el conocimiento de memoria cerrada, la toxicidad y la dependencia de contexto de largo alcance, además de la sensibilidad a la estructura gramatical y los errores de tokenización. Cuando se dispone de comparaciones con puntos de referencia similares etiquetados por humanos, encontramos fuertes correlaciones entre las evaluaciones autosupervisadas y las supervisadas por humanos. El paradigma autosupervisado complementa las estrategias de evaluación actuales que dependen de datos etiquetados.
English
With the rise of Large Language Models (LLMs) and their ubiquitous deployment in diverse domains, measuring language model behavior on realistic data is imperative. For example, a company deploying a client-facing chatbot must ensure that the model will not respond to client requests with profanity. Current evaluations approach this problem using small, domain-specific datasets with human-curated labels. These evaluation sets are often sampled from a narrow and simplified distribution, and data sources can unknowingly be leaked into the training set which can lead to misleading evaluations. To bypass these drawbacks, we propose a framework for self-supervised evaluation of LLMs by analyzing their sensitivity or invariance to transformations on the input text. Self-supervised evaluation can directly monitor LLM behavior on datasets collected in the wild or streamed during live model deployment. We demonstrate self-supervised evaluation strategies for measuring closed-book knowledge, toxicity, and long-range context dependence, in addition to sensitivity to grammatical structure and tokenization errors. When comparisons to similar human-labeled benchmarks are available, we find strong correlations between self-supervised and human-supervised evaluations. The self-supervised paradigm complements current evaluation strategies that rely on labeled data.
PDF150December 15, 2024