Calibração Automática e Correção de Erros para Modelos de Linguagem de Grande Escala via Autossupervisão Ótima de Pareto
Automatic Calibration and Error Correction for Large Language Models via Pareto Optimal Self-Supervision
June 28, 2023
Autores: Theodore Zhao, Mu Wei, J. Samuel Preston, Hoifung Poon
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) têm demonstrado capacidades notáveis de forma imediata para uma ampla gama de aplicações, mas a precisão ainda permanece uma área importante de crescimento, especialmente em domínios críticos como a biomedicina. Um método eficaz para calibrar o nível de confiança nas respostas dos LLMs é essencial para detectar automaticamente erros e facilitar a verificação com intervenção humana. Uma fonte importante de sinais de calibração vem da supervisão programática estipulada por especialistas, que muitas vezes está disponível a baixo custo, mas tem suas próprias limitações, como ruído e cobertura. Neste artigo, introduzimos uma estrutura de autossupervisão Pareto ótima que pode aproveitar a supervisão programática disponível para calibrar sistematicamente as respostas dos LLMs, produzindo uma pontuação de risco para cada resposta, sem qualquer esforço manual adicional. Isso é realizado aprendendo um modelo harmonizador para alinhar a saída do LLM com outras fontes de supervisão disponíveis, que atribuirá pontuações de risco mais altas a respostas mais incertas dos LLMs e facilitará a correção de erros. Experimentos em tarefas padrão de extração de relações nos domínios biomédico e geral demonstram o potencial dessa abordagem, com nossas pontuações de risco propostas altamente correlacionadas com a taxa real de erro dos LLMs. Para as instâncias de teste mais incertas, o prompting dinâmico baseado em nossas pontuações de risco propostas resulta em uma melhoria significativa na precisão para LLMs prontos para uso, elevando os resultados do GPT-3 além do estado da arte (SOTA) em supervisão fraca e os resultados do GPT-4 além do SOTA em resultados supervisionados em conjuntos de dados de avaliação desafiadores.
English
Large language models (LLMs) have demonstrated remarkable capabilities out of
box for a wide range of applications, yet accuracy still remains a major growth
area, especially in mission-critical domains such as biomedicine. An effective
method to calibrate the confidence level on LLM responses is essential to
automatically detect errors and facilitate human-in-the-loop verification. An
important source of calibration signals stems from expert-stipulated
programmatic supervision, which is often available at low cost but has its own
limitations such as noise and coverage. In this paper, we introduce a Pareto
optimal self-supervision framework that can leverage available programmatic
supervision to systematically calibrate LLM responses by producing a risk score
for every response, without any additional manual efforts. This is accomplished
by learning a harmonizer model to align LLM output with other available
supervision sources, which would assign higher risk scores to more uncertain
LLM responses and facilitate error correction. Experiments on standard relation
extraction tasks in biomedical and general domains demonstrate the promise of
this approach, with our proposed risk scores highly correlated with the real
error rate of LLMs. For the most uncertain test instances, dynamic prompting
based on our proposed risk scores results in significant accuracy improvement
for off-the-shelf LLMs, boosting GPT-3 results past state-of-the-art (SOTA)
weak supervision and GPT-4 results past SOTA supervised results on challenging
evaluation datasets.