Bring Your Own Data! Selbstüberwachte Evaluierung für große Sprachmodelle

Zusammenfassung

Mit dem Aufstieg von Large Language Models (LLMs) und ihrer allgegenwärtigen Verwendung in verschiedenen Domänen ist es unerlässlich, das Verhalten von Sprachmodellen anhand realistischer Daten zu messen. Beispielsweise muss ein Unternehmen, das einen kundenorientierten Chatbot einsetzt, sicherstellen, dass das Modell nicht mit beleidigenden Äußerungen auf Kundenanfragen reagiert. Aktuelle Evaluierungsansätze behandeln dieses Problem mithilfe kleiner, domänenspezifischer Datensätze mit manuell kuratierten Labels. Diese Evaluierungssätze werden oft aus einer engen und vereinfachten Verteilung entnommen, und Datenquellen können unbewusst in den Trainingssatz gelangen, was zu irreführenden Bewertungen führen kann. Um diese Nachteile zu umgehen, schlagen wir ein Framework für die selbstüberwachte Evaluierung von LLMs vor, indem wir ihre Sensitivität oder Invarianz gegenüber Transformationen des Eingabetexts analysieren. Die selbstüberwachte Evaluierung kann das Verhalten von LLMs direkt anhand von Datensätzen überwachen, die in der Praxis gesammelt oder während des Live-Betriebs des Modells gestreamt werden. Wir demonstrieren selbstüberwachte Evaluierungsstrategien zur Messung von geschlossenem Wissen, Toxizität und langreichweitiger Kontextabhängigkeit sowie der Sensitivität gegenüber grammatikalischer Struktur und Tokenisierungsfehlern. Wenn Vergleiche mit ähnlichen, von Menschen gelabelten Benchmarks verfügbar sind, finden wir starke Korrelationen zwischen selbstüberwachten und menschlich überwachten Bewertungen. Das selbstüberwachte Paradigma ergänzt aktuelle Evaluierungsstrategien, die auf gelabelte Daten angewiesen sind.

English

With the rise of Large Language Models (LLMs) and their ubiquitous deployment in diverse domains, measuring language model behavior on realistic data is imperative. For example, a company deploying a client-facing chatbot must ensure that the model will not respond to client requests with profanity. Current evaluations approach this problem using small, domain-specific datasets with human-curated labels. These evaluation sets are often sampled from a narrow and simplified distribution, and data sources can unknowingly be leaked into the training set which can lead to misleading evaluations. To bypass these drawbacks, we propose a framework for self-supervised evaluation of LLMs by analyzing their sensitivity or invariance to transformations on the input text. Self-supervised evaluation can directly monitor LLM behavior on datasets collected in the wild or streamed during live model deployment. We demonstrate self-supervised evaluation strategies for measuring closed-book knowledge, toxicity, and long-range context dependence, in addition to sensitivity to grammatical structure and tokenization errors. When comparisons to similar human-labeled benchmarks are available, we find strong correlations between self-supervised and human-supervised evaluations. The self-supervised paradigm complements current evaluation strategies that rely on labeled data.

Bring Your Own Data! Selbstüberwachte Evaluierung für große Sprachmodelle

Bring Your Own Data! Self-Supervised Evaluation for Large Language Models

Zusammenfassung

Support