Автоматическая калибровка и коррекция ошибок для больших языковых моделей с помощью Парето-оптимального самоконтроля
Automatic Calibration and Error Correction for Large Language Models via Pareto Optimal Self-Supervision
June 28, 2023
Авторы: Theodore Zhao, Mu Wei, J. Samuel Preston, Hoifung Poon
cs.AI
Аннотация
Крупные языковые модели (LLM) демонстрируют впечатляющие возможности "из коробки" для широкого спектра задач, однако точность по-прежнему остается ключевой областью для улучшения, особенно в критически важных областях, таких как биомедицина. Эффективный метод калибровки уровня уверенности в ответах LLM необходим для автоматического обнаружения ошибок и облегчения проверки с участием человека. Важным источником сигналов для калибровки являются программные инструкции, заданные экспертами, которые часто доступны с минимальными затратами, но имеют свои ограничения, такие как шум и недостаточный охват. В данной статье мы представляем Парето-оптимальную структуру самоконтроля, которая может использовать доступные программные инструкции для систематической калибровки ответов LLM, присваивая каждому ответу оценку риска без дополнительных ручных усилий. Это достигается за счет обучения модели-гармонизатора, которая согласовывает выходные данные LLM с другими доступными источниками контроля, присваивая более высокие оценки риска наиболее неопределенным ответам LLM и способствуя исправлению ошибок. Эксперименты на стандартных задачах извлечения отношений в биомедицинской и общей областях демонстрируют перспективность этого подхода: предложенные нами оценки риска сильно коррелируют с реальной частотой ошибок LLM. Для наиболее неопределенных тестовых примеров динамическое формирование запросов на основе предложенных оценок риска приводит к значительному улучшению точности готовых LLM, превосходя результаты GPT-3 по сравнению с современными (SOTA) методами слабого контроля, а результаты GPT-4 — по сравнению с SOTA методами контролируемого обучения на сложных оценочных наборах данных.
English
Large language models (LLMs) have demonstrated remarkable capabilities out of
box for a wide range of applications, yet accuracy still remains a major growth
area, especially in mission-critical domains such as biomedicine. An effective
method to calibrate the confidence level on LLM responses is essential to
automatically detect errors and facilitate human-in-the-loop verification. An
important source of calibration signals stems from expert-stipulated
programmatic supervision, which is often available at low cost but has its own
limitations such as noise and coverage. In this paper, we introduce a Pareto
optimal self-supervision framework that can leverage available programmatic
supervision to systematically calibrate LLM responses by producing a risk score
for every response, without any additional manual efforts. This is accomplished
by learning a harmonizer model to align LLM output with other available
supervision sources, which would assign higher risk scores to more uncertain
LLM responses and facilitate error correction. Experiments on standard relation
extraction tasks in biomedical and general domains demonstrate the promise of
this approach, with our proposed risk scores highly correlated with the real
error rate of LLMs. For the most uncertain test instances, dynamic prompting
based on our proposed risk scores results in significant accuracy improvement
for off-the-shelf LLMs, boosting GPT-3 results past state-of-the-art (SOTA)
weak supervision and GPT-4 results past SOTA supervised results on challenging
evaluation datasets.