Automatische Kalibrierung und Fehlerkorrektur für große Sprachmodelle durch Pareto-optimale Selbstüberwachung
Automatic Calibration and Error Correction for Large Language Models via Pareto Optimal Self-Supervision
June 28, 2023
Autoren: Theodore Zhao, Mu Wei, J. Samuel Preston, Hoifung Poon
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten für eine Vielzahl von Anwendungen gezeigt, doch die Genauigkeit bleibt ein wichtiger Wachstumsbereich, insbesondere in kritischen Domänen wie der Biomedizin. Eine effektive Methode zur Kalibrierung des Konfidenzniveaus von LLM-Antworten ist entscheidend, um Fehler automatisch zu erkennen und die menschliche Überprüfung zu erleichtern. Eine wichtige Quelle für Kalibrierungssignale stammt von programmatischer Aufsicht, die von Experten festgelegt wird und oft kostengünstig verfügbar ist, jedoch eigene Einschränkungen wie Rauschen und Abdeckung aufweist. In diesem Artikel stellen wir ein Pareto-optimales Selbstüberwachungsframework vor, das die verfügbare programmatische Aufsicht nutzen kann, um LLM-Antworten systematisch zu kalibrieren, indem es für jede Antwort ein Risikoscore erzeugt, ohne zusätzlichen manuellen Aufwand. Dies wird erreicht, indem ein Harmonizer-Modell gelernt wird, um die LLM-Ausgabe mit anderen verfügbaren Aufsichtsquellen abzugleichen, das höhere Risikoscores für unsichere LLM-Antworten vergibt und die Fehlerkorrektur erleichtert. Experimente zu standardmäßigen Relationsextraktionsaufgaben in biomedizinischen und allgemeinen Domänen zeigen das Potenzial dieses Ansatzes, wobei unsere vorgeschlagenen Risikoscores stark mit der tatsächlichen Fehlerrate der LLMs korrelieren. Für die unsichersten Testinstanzen führt dynamisches Prompting basierend auf unseren vorgeschlagenen Risikoscores zu einer signifikanten Verbesserung der Genauigkeit von Standard-LLMs, wobei die GPT-3-Ergebnisse den Stand der Technik (SOTA) der schwachen Aufsicht übertreffen und die GPT-4-Ergebnisse die SOTA-überwachten Ergebnisse auf anspruchsvollen Evaluierungsdatensätzen übertreffen.
English
Large language models (LLMs) have demonstrated remarkable capabilities out of
box for a wide range of applications, yet accuracy still remains a major growth
area, especially in mission-critical domains such as biomedicine. An effective
method to calibrate the confidence level on LLM responses is essential to
automatically detect errors and facilitate human-in-the-loop verification. An
important source of calibration signals stems from expert-stipulated
programmatic supervision, which is often available at low cost but has its own
limitations such as noise and coverage. In this paper, we introduce a Pareto
optimal self-supervision framework that can leverage available programmatic
supervision to systematically calibrate LLM responses by producing a risk score
for every response, without any additional manual efforts. This is accomplished
by learning a harmonizer model to align LLM output with other available
supervision sources, which would assign higher risk scores to more uncertain
LLM responses and facilitate error correction. Experiments on standard relation
extraction tasks in biomedical and general domains demonstrate the promise of
this approach, with our proposed risk scores highly correlated with the real
error rate of LLMs. For the most uncertain test instances, dynamic prompting
based on our proposed risk scores results in significant accuracy improvement
for off-the-shelf LLMs, boosting GPT-3 results past state-of-the-art (SOTA)
weak supervision and GPT-4 results past SOTA supervised results on challenging
evaluation datasets.