Traga Seus Próprios Dados! Avaliação Autossupervisionada para Modelos de Linguagem de Grande Escala
Bring Your Own Data! Self-Supervised Evaluation for Large Language Models
June 23, 2023
Autores: Neel Jain, Khalid Saifullah, Yuxin Wen, John Kirchenbauer, Manli Shu, Aniruddha Saha, Micah Goldblum, Jonas Geiping, Tom Goldstein
cs.AI
Resumo
Com o surgimento dos Modelos de Linguagem de Grande Escala (LLMs) e sua implantação ubíqua em diversos domínios, medir o comportamento desses modelos em dados realistas é essencial. Por exemplo, uma empresa que implanta um chatbot voltado para clientes deve garantir que o modelo não responderá às solicitações dos clientes com linguagem ofensiva. As avaliações atuais abordam esse problema usando pequenos conjuntos de dados específicos de domínio com rótulos curados por humanos. Esses conjuntos de avaliação são frequentemente amostrados de uma distribuição estreita e simplificada, e as fontes de dados podem, sem querer, vazar para o conjunto de treinamento, o que pode levar a avaliações enganosas. Para contornar essas limitações, propomos uma estrutura para avaliação autossupervisionada de LLMs, analisando sua sensibilidade ou invariância a transformações no texto de entrada. A avaliação autossupervisionada pode monitorar diretamente o comportamento dos LLMs em conjuntos de dados coletados em cenários reais ou transmitidos durante a implantação ao vivo do modelo. Demonstramos estratégias de avaliação autossupervisionada para medir conhecimento de livro fechado, toxicidade e dependência de contexto de longo alcance, além de sensibilidade a erros de estrutura gramatical e tokenização. Quando comparações com benchmarks semelhantes rotulados por humanos estão disponíveis, encontramos fortes correlações entre avaliações autossupervisionadas e supervisionadas por humanos. O paradigma autossupervisionado complementa as estratégias de avaliação atuais que dependem de dados rotulados.
English
With the rise of Large Language Models (LLMs) and their ubiquitous deployment
in diverse domains, measuring language model behavior on realistic data is
imperative. For example, a company deploying a client-facing chatbot must
ensure that the model will not respond to client requests with profanity.
Current evaluations approach this problem using small, domain-specific datasets
with human-curated labels. These evaluation sets are often sampled from a
narrow and simplified distribution, and data sources can unknowingly be leaked
into the training set which can lead to misleading evaluations. To bypass these
drawbacks, we propose a framework for self-supervised evaluation of LLMs by
analyzing their sensitivity or invariance to transformations on the input text.
Self-supervised evaluation can directly monitor LLM behavior on datasets
collected in the wild or streamed during live model deployment. We demonstrate
self-supervised evaluation strategies for measuring closed-book knowledge,
toxicity, and long-range context dependence, in addition to sensitivity to
grammatical structure and tokenization errors. When comparisons to similar
human-labeled benchmarks are available, we find strong correlations between
self-supervised and human-supervised evaluations. The self-supervised paradigm
complements current evaluation strategies that rely on labeled data.