Apportez vos propres données ! Évaluation auto-supervisée pour les grands modèles de langage
Bring Your Own Data! Self-Supervised Evaluation for Large Language Models
June 23, 2023
Auteurs: Neel Jain, Khalid Saifullah, Yuxin Wen, John Kirchenbauer, Manli Shu, Aniruddha Saha, Micah Goldblum, Jonas Geiping, Tom Goldstein
cs.AI
Résumé
Avec l'essor des modèles de langage à grande échelle (LLMs) et leur déploiement omniprésent dans divers domaines, il est impératif de mesurer le comportement des modèles de langage sur des données réalistes. Par exemple, une entreprise déployant un chatbot client doit s'assurer que le modèle ne répondra pas aux demandes des clients par des propos injurieux. Les évaluations actuelles abordent ce problème en utilisant de petits ensembles de données spécifiques à un domaine, annotés manuellement. Ces ensembles d'évaluation sont souvent échantillonnés à partir d'une distribution étroite et simplifiée, et les sources de données peuvent involontairement fuiter dans l'ensemble d'entraînement, ce qui peut conduire à des évaluations trompeuses. Pour contourner ces inconvénients, nous proposons un cadre pour l'évaluation auto-supervisée des LLMs en analysant leur sensibilité ou invariance aux transformations appliquées au texte d'entrée. L'évaluation auto-supervisée permet de surveiller directement le comportement des LLMs sur des ensembles de données collectés en conditions réelles ou diffusés lors du déploiement en temps réel du modèle. Nous démontrons des stratégies d'évaluation auto-supervisée pour mesurer les connaissances en mode fermé, la toxicité, la dépendance au contexte à long terme, ainsi que la sensibilité à la structure grammaticale et aux erreurs de tokenisation. Lorsque des comparaisons avec des benchmarks similaires annotés par des humains sont disponibles, nous trouvons de fortes corrélations entre les évaluations auto-supervisées et supervisées par des humains. Le paradigme auto-supervisé complète les stratégies d'évaluation actuelles qui reposent sur des données annotées.
English
With the rise of Large Language Models (LLMs) and their ubiquitous deployment
in diverse domains, measuring language model behavior on realistic data is
imperative. For example, a company deploying a client-facing chatbot must
ensure that the model will not respond to client requests with profanity.
Current evaluations approach this problem using small, domain-specific datasets
with human-curated labels. These evaluation sets are often sampled from a
narrow and simplified distribution, and data sources can unknowingly be leaked
into the training set which can lead to misleading evaluations. To bypass these
drawbacks, we propose a framework for self-supervised evaluation of LLMs by
analyzing their sensitivity or invariance to transformations on the input text.
Self-supervised evaluation can directly monitor LLM behavior on datasets
collected in the wild or streamed during live model deployment. We demonstrate
self-supervised evaluation strategies for measuring closed-book knowledge,
toxicity, and long-range context dependence, in addition to sensitivity to
grammatical structure and tokenization errors. When comparisons to similar
human-labeled benchmarks are available, we find strong correlations between
self-supervised and human-supervised evaluations. The self-supervised paradigm
complements current evaluation strategies that rely on labeled data.