Breng Je Eigen Data! Zelfsupervisie Evaluatie voor Grote Taalmodellen

Samenvatting

Met de opkomst van Large Language Models (LLM's) en hun alomtegenwoordige inzet in diverse domeinen, is het meten van het gedrag van taalmodelen op realistische data van cruciaal belang. Een bedrijf dat bijvoorbeeld een klantgerichte chatbot inzet, moet ervoor zorgen dat het model niet reageert op klantverzoeken met grof taalgebruik. Huidige evaluaties benaderen dit probleem met behulp van kleine, domeinspecifieke datasets met door mensen samengestelde labels. Deze evaluatiesets zijn vaak afkomstig uit een smalle en vereenvoudigde distributie, en databronnen kunnen onbewust in de trainingsset terechtkomen, wat kan leiden tot misleidende evaluaties. Om deze nadelen te omzeilen, stellen we een raamwerk voor voor zelfgesuperviseerde evaluatie van LLM's door hun gevoeligheid of onveranderlijkheid te analyseren bij transformaties van de invoertekst. Zelfgesuperviseerde evaluatie kan het gedrag van LLM's direct monitoren op datasets die in het wild zijn verzameld of die tijdens live modelimplementatie worden gestreamd. We demonstreren zelfgesuperviseerde evaluatiestrategieën voor het meten van geslotenboekkennis, toxiciteit en afhankelijkheid van context op lange termijn, naast gevoeligheid voor grammaticale structuur en tokenisatiefouten. Wanneer vergelijkingen met vergelijkbare door mensen gelabelde benchmarks beschikbaar zijn, vinden we sterke correlaties tussen zelfgesuperviseerde en door mensen gesuperviseerde evaluaties. Het zelfgesuperviseerde paradigma vult huidige evaluatiestrategieën aan die afhankelijk zijn van gelabelde data.

English

With the rise of Large Language Models (LLMs) and their ubiquitous deployment in diverse domains, measuring language model behavior on realistic data is imperative. For example, a company deploying a client-facing chatbot must ensure that the model will not respond to client requests with profanity. Current evaluations approach this problem using small, domain-specific datasets with human-curated labels. These evaluation sets are often sampled from a narrow and simplified distribution, and data sources can unknowingly be leaked into the training set which can lead to misleading evaluations. To bypass these drawbacks, we propose a framework for self-supervised evaluation of LLMs by analyzing their sensitivity or invariance to transformations on the input text. Self-supervised evaluation can directly monitor LLM behavior on datasets collected in the wild or streamed during live model deployment. We demonstrate self-supervised evaluation strategies for measuring closed-book knowledge, toxicity, and long-range context dependence, in addition to sensitivity to grammatical structure and tokenization errors. When comparisons to similar human-labeled benchmarks are available, we find strong correlations between self-supervised and human-supervised evaluations. The self-supervised paradigm complements current evaluation strategies that rely on labeled data.

Breng Je Eigen Data! Zelfsupervisie Evaluatie voor Grote Taalmodellen

Bring Your Own Data! Self-Supervised Evaluation for Large Language Models

Samenvatting

Support