ChatPaper.aiChatPaper

Calibration automatique et correction d'erreurs pour les grands modèles de langage via l'auto-supervision Pareto-optimale

Automatic Calibration and Error Correction for Large Language Models via Pareto Optimal Self-Supervision

June 28, 2023
Auteurs: Theodore Zhao, Mu Wei, J. Samuel Preston, Hoifung Poon
cs.AI

Résumé

Les grands modèles de langage (LLMs) ont démontré des capacités remarquables dès leur utilisation pour un large éventail d'applications, mais la précision reste un domaine majeur d'amélioration, en particulier dans des domaines critiques comme la biomédecine. Une méthode efficace pour calibrer le niveau de confiance des réponses des LLMs est essentielle pour détecter automatiquement les erreurs et faciliter la vérification humaine en boucle. Une source importante de signaux de calibration provient de la supervision programmatique définie par des experts, souvent disponible à faible coût mais ayant ses propres limites, telles que le bruit et la couverture. Dans cet article, nous introduisons un cadre d'auto-supervision Pareto optimal qui peut exploiter la supervision programmatique disponible pour calibrer systématiquement les réponses des LLMs en produisant un score de risque pour chaque réponse, sans aucun effort manuel supplémentaire. Cela est accompli en apprenant un modèle harmonisateur pour aligner la sortie des LLMs avec d'autres sources de supervision disponibles, qui attribuerait des scores de risque plus élevés aux réponses des LLMs les plus incertaines et faciliterait la correction des erreurs. Les expériences sur des tâches standard d'extraction de relations dans les domaines biomédicaux et généraux démontrent le potentiel de cette approche, avec nos scores de risque proposés fortement corrélés au taux d'erreur réel des LLMs. Pour les instances de test les plus incertaines, l'incitation dynamique basée sur nos scores de risque proposés entraîne une amélioration significative de la précision pour les LLMs prêts à l'emploi, dépassant les résultats de GPT-3 par rapport à l'état de l'art (SOTA) en supervision faible et les résultats de GPT-4 par rapport à l'état de l'art en supervision sur des ensembles de données d'évaluation difficiles.
English
Large language models (LLMs) have demonstrated remarkable capabilities out of box for a wide range of applications, yet accuracy still remains a major growth area, especially in mission-critical domains such as biomedicine. An effective method to calibrate the confidence level on LLM responses is essential to automatically detect errors and facilitate human-in-the-loop verification. An important source of calibration signals stems from expert-stipulated programmatic supervision, which is often available at low cost but has its own limitations such as noise and coverage. In this paper, we introduce a Pareto optimal self-supervision framework that can leverage available programmatic supervision to systematically calibrate LLM responses by producing a risk score for every response, without any additional manual efforts. This is accomplished by learning a harmonizer model to align LLM output with other available supervision sources, which would assign higher risk scores to more uncertain LLM responses and facilitate error correction. Experiments on standard relation extraction tasks in biomedical and general domains demonstrate the promise of this approach, with our proposed risk scores highly correlated with the real error rate of LLMs. For the most uncertain test instances, dynamic prompting based on our proposed risk scores results in significant accuracy improvement for off-the-shelf LLMs, boosting GPT-3 results past state-of-the-art (SOTA) weak supervision and GPT-4 results past SOTA supervised results on challenging evaluation datasets.
PDF31December 15, 2024