Automatische kalibratie en foutcorrectie voor grote taalmodelen via Pareto-optimale zelfsupervisie
Automatic Calibration and Error Correction for Large Language Models via Pareto Optimal Self-Supervision
June 28, 2023
Auteurs: Theodore Zhao, Mu Wei, J. Samuel Preston, Hoifung Poon
cs.AI
Samenvatting
Grote taalmodellen (LLMs) hebben opmerkelijk veel mogelijkheden getoond voor een breed scala aan toepassingen, maar nauwkeurigheid blijft een belangrijk aandachtspunt, vooral in kritieke domeinen zoals biomedische wetenschappen. Een effectieve methode om het vertrouwensniveau van LLM-antwoorden te kalibreren is essentieel om automatisch fouten te detecteren en menselijke verificatie mogelijk te maken. Een belangrijke bron van kalibratiesignalen komt van door experts opgestelde programmatische supervisie, die vaak tegen lage kosten beschikbaar is, maar ook beperkingen heeft zoals ruis en dekking. In dit artikel introduceren we een Pareto-optimaal zelfsupervisie-framework dat beschikbare programmatische supervisie kan benutten om LLM-antwoorden systematisch te kalibreren door een risicoscore voor elk antwoord te produceren, zonder extra handmatige inspanningen. Dit wordt bereikt door een harmonisatiemodel te leren dat de LLM-uitvoer afstemt op andere beschikbare supervisiebronnen, waardoor hogere risicoscores worden toegekend aan meer onzekere LLM-antwoorden en foutcorrectie wordt gefaciliteerd. Experimenten op standaard relatie-extractietaken in biomedische en algemene domeinen tonen de belofte van deze aanpak, waarbij onze voorgestelde risicoscores sterk gecorreleerd zijn met de werkelijke foutpercentages van LLMs. Voor de meest onzekere testgevallen resulteert dynamische prompting op basis van onze voorgestelde risicoscores in een significante nauwkeurigheidsverbetering voor standaard LLMs, waarbij GPT-3-resultaten de state-of-the-art (SOTA) zwakke supervisie overtreffen en GPT-4-resultaten de SOTA supervisieresultaten overstijgen op uitdagende evaluatiedatasets.
English
Large language models (LLMs) have demonstrated remarkable capabilities out of
box for a wide range of applications, yet accuracy still remains a major growth
area, especially in mission-critical domains such as biomedicine. An effective
method to calibrate the confidence level on LLM responses is essential to
automatically detect errors and facilitate human-in-the-loop verification. An
important source of calibration signals stems from expert-stipulated
programmatic supervision, which is often available at low cost but has its own
limitations such as noise and coverage. In this paper, we introduce a Pareto
optimal self-supervision framework that can leverage available programmatic
supervision to systematically calibrate LLM responses by producing a risk score
for every response, without any additional manual efforts. This is accomplished
by learning a harmonizer model to align LLM output with other available
supervision sources, which would assign higher risk scores to more uncertain
LLM responses and facilitate error correction. Experiments on standard relation
extraction tasks in biomedical and general domains demonstrate the promise of
this approach, with our proposed risk scores highly correlated with the real
error rate of LLMs. For the most uncertain test instances, dynamic prompting
based on our proposed risk scores results in significant accuracy improvement
for off-the-shelf LLMs, boosting GPT-3 results past state-of-the-art (SOTA)
weak supervision and GPT-4 results past SOTA supervised results on challenging
evaluation datasets.