Calibrazione Automatica e Correzione degli Errori per Modelli Linguistici di Grande Scala tramite Auto-Supervisione Pareto-Ottimale

Abstract

I grandi modelli linguistici (LLM) hanno dimostrato capacità notevoli fin da subito per un'ampia gamma di applicazioni, ma l'accuratezza rimane un'area di crescita cruciale, specialmente in domini mission-critical come la biomedicina. Un metodo efficace per calibrare il livello di fiducia nelle risposte degli LLM è essenziale per rilevare automaticamente gli errori e facilitare la verifica con l'uomo nel ciclo. Un'importante fonte di segnali di calibrazione deriva dalla supervisione programmatica stabilita da esperti, spesso disponibile a basso costo ma con limitazioni come rumore e copertura. In questo articolo, introduciamo un framework di auto-supervisione Pareto-ottimale che può sfruttare la supervisione programmatica disponibile per calibrare sistematicamente le risposte degli LLM producendo un punteggio di rischio per ogni risposta, senza ulteriori sforzi manuali. Questo è ottenuto apprendendo un modello armonizzatore per allineare l'output degli LLM con altre fonti di supervisione disponibili, che assegna punteggi di rischio più alti alle risposte degli LLM più incerte e facilita la correzione degli errori. Esperimenti su compiti standard di estrazione di relazioni nei domini biomedico e generale dimostrano il potenziale di questo approccio, con i nostri punteggi di rischio altamente correlati al tasso di errore reale degli LLM. Per le istanze di test più incerte, il prompting dinamico basato sui nostri punteggi di rischio porta a un significativo miglioramento dell'accuratezza per gli LLM pronti all'uso, superando i risultati di GPT-3 rispetto ai migliori approcci di supervisione debole (SOTA) e i risultati di GPT-4 rispetto ai migliori risultati supervisionati SOTA su dataset di valutazione impegnativi.

English

Large language models (LLMs) have demonstrated remarkable capabilities out of box for a wide range of applications, yet accuracy still remains a major growth area, especially in mission-critical domains such as biomedicine. An effective method to calibrate the confidence level on LLM responses is essential to automatically detect errors and facilitate human-in-the-loop verification. An important source of calibration signals stems from expert-stipulated programmatic supervision, which is often available at low cost but has its own limitations such as noise and coverage. In this paper, we introduce a Pareto optimal self-supervision framework that can leverage available programmatic supervision to systematically calibrate LLM responses by producing a risk score for every response, without any additional manual efforts. This is accomplished by learning a harmonizer model to align LLM output with other available supervision sources, which would assign higher risk scores to more uncertain LLM responses and facilitate error correction. Experiments on standard relation extraction tasks in biomedical and general domains demonstrate the promise of this approach, with our proposed risk scores highly correlated with the real error rate of LLMs. For the most uncertain test instances, dynamic prompting based on our proposed risk scores results in significant accuracy improvement for off-the-shelf LLMs, boosting GPT-3 results past state-of-the-art (SOTA) weak supervision and GPT-4 results past SOTA supervised results on challenging evaluation datasets.

Calibrazione Automatica e Correzione degli Errori per Modelli Linguistici di Grande Scala tramite Auto-Supervisione Pareto-Ottimale

Automatic Calibration and Error Correction for Large Language Models via Pareto Optimal Self-Supervision

Abstract

Support