Calibrazione Automatica e Correzione degli Errori per Modelli Linguistici di Grande Scala tramite Auto-Supervisione Pareto-Ottimale
Automatic Calibration and Error Correction for Large Language Models via Pareto Optimal Self-Supervision
June 28, 2023
Autori: Theodore Zhao, Mu Wei, J. Samuel Preston, Hoifung Poon
cs.AI
Abstract
I grandi modelli linguistici (LLM) hanno dimostrato capacità notevoli fin da subito per un'ampia gamma di applicazioni, ma l'accuratezza rimane un'area di crescita cruciale, specialmente in domini mission-critical come la biomedicina. Un metodo efficace per calibrare il livello di fiducia nelle risposte degli LLM è essenziale per rilevare automaticamente gli errori e facilitare la verifica con l'uomo nel ciclo. Un'importante fonte di segnali di calibrazione deriva dalla supervisione programmatica stabilita da esperti, spesso disponibile a basso costo ma con limitazioni come rumore e copertura. In questo articolo, introduciamo un framework di auto-supervisione Pareto-ottimale che può sfruttare la supervisione programmatica disponibile per calibrare sistematicamente le risposte degli LLM producendo un punteggio di rischio per ogni risposta, senza ulteriori sforzi manuali. Questo è ottenuto apprendendo un modello armonizzatore per allineare l'output degli LLM con altre fonti di supervisione disponibili, che assegna punteggi di rischio più alti alle risposte degli LLM più incerte e facilita la correzione degli errori. Esperimenti su compiti standard di estrazione di relazioni nei domini biomedico e generale dimostrano il potenziale di questo approccio, con i nostri punteggi di rischio altamente correlati al tasso di errore reale degli LLM. Per le istanze di test più incerte, il prompting dinamico basato sui nostri punteggi di rischio porta a un significativo miglioramento dell'accuratezza per gli LLM pronti all'uso, superando i risultati di GPT-3 rispetto ai migliori approcci di supervisione debole (SOTA) e i risultati di GPT-4 rispetto ai migliori risultati supervisionati SOTA su dataset di valutazione impegnativi.
English
Large language models (LLMs) have demonstrated remarkable capabilities out of
box for a wide range of applications, yet accuracy still remains a major growth
area, especially in mission-critical domains such as biomedicine. An effective
method to calibrate the confidence level on LLM responses is essential to
automatically detect errors and facilitate human-in-the-loop verification. An
important source of calibration signals stems from expert-stipulated
programmatic supervision, which is often available at low cost but has its own
limitations such as noise and coverage. In this paper, we introduce a Pareto
optimal self-supervision framework that can leverage available programmatic
supervision to systematically calibrate LLM responses by producing a risk score
for every response, without any additional manual efforts. This is accomplished
by learning a harmonizer model to align LLM output with other available
supervision sources, which would assign higher risk scores to more uncertain
LLM responses and facilitate error correction. Experiments on standard relation
extraction tasks in biomedical and general domains demonstrate the promise of
this approach, with our proposed risk scores highly correlated with the real
error rate of LLMs. For the most uncertain test instances, dynamic prompting
based on our proposed risk scores results in significant accuracy improvement
for off-the-shelf LLMs, boosting GPT-3 results past state-of-the-art (SOTA)
weak supervision and GPT-4 results past SOTA supervised results on challenging
evaluation datasets.