Bring Your Own Data! Selbstüberwachte Evaluierung für große Sprachmodelle
Bring Your Own Data! Self-Supervised Evaluation for Large Language Models
June 23, 2023
Autoren: Neel Jain, Khalid Saifullah, Yuxin Wen, John Kirchenbauer, Manli Shu, Aniruddha Saha, Micah Goldblum, Jonas Geiping, Tom Goldstein
cs.AI
Zusammenfassung
Mit dem Aufstieg von Large Language Models (LLMs) und ihrer allgegenwärtigen Verwendung in verschiedenen Domänen ist es unerlässlich, das Verhalten von Sprachmodellen anhand realistischer Daten zu messen. Beispielsweise muss ein Unternehmen, das einen kundenorientierten Chatbot einsetzt, sicherstellen, dass das Modell nicht mit beleidigenden Äußerungen auf Kundenanfragen reagiert. Aktuelle Evaluierungsansätze behandeln dieses Problem mithilfe kleiner, domänenspezifischer Datensätze mit manuell kuratierten Labels. Diese Evaluierungssätze werden oft aus einer engen und vereinfachten Verteilung entnommen, und Datenquellen können unbewusst in den Trainingssatz gelangen, was zu irreführenden Bewertungen führen kann. Um diese Nachteile zu umgehen, schlagen wir ein Framework für die selbstüberwachte Evaluierung von LLMs vor, indem wir ihre Sensitivität oder Invarianz gegenüber Transformationen des Eingabetexts analysieren. Die selbstüberwachte Evaluierung kann das Verhalten von LLMs direkt anhand von Datensätzen überwachen, die in der Praxis gesammelt oder während des Live-Betriebs des Modells gestreamt werden. Wir demonstrieren selbstüberwachte Evaluierungsstrategien zur Messung von geschlossenem Wissen, Toxizität und langreichweitiger Kontextabhängigkeit sowie der Sensitivität gegenüber grammatikalischer Struktur und Tokenisierungsfehlern. Wenn Vergleiche mit ähnlichen, von Menschen gelabelten Benchmarks verfügbar sind, finden wir starke Korrelationen zwischen selbstüberwachten und menschlich überwachten Bewertungen. Das selbstüberwachte Paradigma ergänzt aktuelle Evaluierungsstrategien, die auf gelabelte Daten angewiesen sind.
English
With the rise of Large Language Models (LLMs) and their ubiquitous deployment
in diverse domains, measuring language model behavior on realistic data is
imperative. For example, a company deploying a client-facing chatbot must
ensure that the model will not respond to client requests with profanity.
Current evaluations approach this problem using small, domain-specific datasets
with human-curated labels. These evaluation sets are often sampled from a
narrow and simplified distribution, and data sources can unknowingly be leaked
into the training set which can lead to misleading evaluations. To bypass these
drawbacks, we propose a framework for self-supervised evaluation of LLMs by
analyzing their sensitivity or invariance to transformations on the input text.
Self-supervised evaluation can directly monitor LLM behavior on datasets
collected in the wild or streamed during live model deployment. We demonstrate
self-supervised evaluation strategies for measuring closed-book knowledge,
toxicity, and long-range context dependence, in addition to sensitivity to
grammatical structure and tokenization errors. When comparisons to similar
human-labeled benchmarks are available, we find strong correlations between
self-supervised and human-supervised evaluations. The self-supervised paradigm
complements current evaluation strategies that rely on labeled data.