Принеси свои данные! Самообучаемая оценка для крупных языковых моделей
Bring Your Own Data! Self-Supervised Evaluation for Large Language Models
June 23, 2023
Авторы: Neel Jain, Khalid Saifullah, Yuxin Wen, John Kirchenbauer, Manli Shu, Aniruddha Saha, Micah Goldblum, Jonas Geiping, Tom Goldstein
cs.AI
Аннотация
С ростом популярности крупных языковых моделей (LLM) и их повсеместного внедрения в различных областях, измерение поведения языковых моделей на реалистичных данных становится крайне важным. Например, компания, развертывающая клиентский чат-бот, должна убедиться, что модель не будет отвечать на запросы клиентов ненормативной лексикой. Современные методы оценки решают эту проблему с использованием небольших, узкоспециализированных наборов данных с аннотациями, созданными вручную. Эти оценочные наборы часто выбираются из узкого и упрощенного распределения, а источники данных могут непреднамеренно попадать в обучающий набор, что может привести к ошибочным оценкам. Чтобы обойти эти недостатки, мы предлагаем фреймворк для самообучаемой оценки LLM путем анализа их чувствительности или инвариантности к преобразованиям входного текста. Самообучаемая оценка позволяет напрямую отслеживать поведение LLM на данных, собранных в реальных условиях или поступающих в режиме реального времени при развертывании модели. Мы демонстрируем стратегии самообучаемой оценки для измерения знаний в закрытой книге, токсичности и зависимости от долгосрочного контекста, а также чувствительности к грамматической структуре и ошибкам токенизации. Когда доступны сравнения с аналогичными эталонными данными, аннотированными человеком, мы обнаруживаем сильную корреляцию между самообучаемой и человеко-контролируемой оценками. Самообучаемый подход дополняет современные стратегии оценки, основанные на размеченных данных.
English
With the rise of Large Language Models (LLMs) and their ubiquitous deployment
in diverse domains, measuring language model behavior on realistic data is
imperative. For example, a company deploying a client-facing chatbot must
ensure that the model will not respond to client requests with profanity.
Current evaluations approach this problem using small, domain-specific datasets
with human-curated labels. These evaluation sets are often sampled from a
narrow and simplified distribution, and data sources can unknowingly be leaked
into the training set which can lead to misleading evaluations. To bypass these
drawbacks, we propose a framework for self-supervised evaluation of LLMs by
analyzing their sensitivity or invariance to transformations on the input text.
Self-supervised evaluation can directly monitor LLM behavior on datasets
collected in the wild or streamed during live model deployment. We demonstrate
self-supervised evaluation strategies for measuring closed-book knowledge,
toxicity, and long-range context dependence, in addition to sensitivity to
grammatical structure and tokenization errors. When comparisons to similar
human-labeled benchmarks are available, we find strong correlations between
self-supervised and human-supervised evaluations. The self-supervised paradigm
complements current evaluation strategies that rely on labeled data.