ChatPaper.aiChatPaper

Porta i tuoi dati! Valutazione auto-supervisionata per modelli linguistici di grandi dimensioni

Bring Your Own Data! Self-Supervised Evaluation for Large Language Models

June 23, 2023
Autori: Neel Jain, Khalid Saifullah, Yuxin Wen, John Kirchenbauer, Manli Shu, Aniruddha Saha, Micah Goldblum, Jonas Geiping, Tom Goldstein
cs.AI

Abstract

Con l'ascesa dei Large Language Models (LLM) e il loro impiego ubiquitario in diversi domini, diventa imperativo misurare il comportamento dei modelli linguistici su dati realistici. Ad esempio, un'azienda che implementa un chatbot rivolto ai clienti deve assicurarsi che il modello non risponda alle richieste dei clienti con linguaggio volgare. Le valutazioni attuali affrontano questo problema utilizzando piccoli dataset specifici per dominio con etichette curate da esseri umani. Questi set di valutazione sono spesso campionati da una distribuzione ristretta e semplificata, e le fonti dei dati possono essere involontariamente incluse nel set di addestramento, portando a valutazioni fuorvianti. Per superare questi limiti, proponiamo un framework per la valutazione auto-supervisionata dei LLM analizzando la loro sensibilità o invarianza alle trasformazioni applicate al testo di input. La valutazione auto-supervisionata può monitorare direttamente il comportamento dei LLM su dataset raccolti in contesti reali o durante il deployment in tempo reale del modello. Dimostriamo strategie di valutazione auto-supervisionata per misurare la conoscenza a libro chiuso, la tossicità e la dipendenza dal contesto a lungo raggio, oltre alla sensibilità alla struttura grammaticale e agli errori di tokenizzazione. Quando sono disponibili confronti con benchmark simili etichettati da esseri umani, troviamo forti correlazioni tra le valutazioni auto-supervisionate e quelle supervisionate da esseri umani. Il paradigma auto-supervisionato integra le attuali strategie di valutazione che si basano su dati etichettati.
English
With the rise of Large Language Models (LLMs) and their ubiquitous deployment in diverse domains, measuring language model behavior on realistic data is imperative. For example, a company deploying a client-facing chatbot must ensure that the model will not respond to client requests with profanity. Current evaluations approach this problem using small, domain-specific datasets with human-curated labels. These evaluation sets are often sampled from a narrow and simplified distribution, and data sources can unknowingly be leaked into the training set which can lead to misleading evaluations. To bypass these drawbacks, we propose a framework for self-supervised evaluation of LLMs by analyzing their sensitivity or invariance to transformations on the input text. Self-supervised evaluation can directly monitor LLM behavior on datasets collected in the wild or streamed during live model deployment. We demonstrate self-supervised evaluation strategies for measuring closed-book knowledge, toxicity, and long-range context dependence, in addition to sensitivity to grammatical structure and tokenization errors. When comparisons to similar human-labeled benchmarks are available, we find strong correlations between self-supervised and human-supervised evaluations. The self-supervised paradigm complements current evaluation strategies that rely on labeled data.
PDF150February 8, 2026