Calibración Automática y Corrección de Errores para Modelos de Lenguaje a Gran Escala mediante Autosupervisión Óptima de Pareto
Automatic Calibration and Error Correction for Large Language Models via Pareto Optimal Self-Supervision
June 28, 2023
Autores: Theodore Zhao, Mu Wei, J. Samuel Preston, Hoifung Poon
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades notables de manera inmediata para una amplia gama de aplicaciones, aunque la precisión sigue siendo un área clave de mejora, especialmente en dominios críticos como la biomedicina. Un método efectivo para calibrar el nivel de confianza en las respuestas de los LLMs es esencial para detectar errores automáticamente y facilitar la verificación con intervención humana. Una fuente importante de señales de calibración proviene de la supervisión programática establecida por expertos, que suele estar disponible a bajo costo pero tiene sus propias limitaciones, como el ruido y la cobertura. En este artículo, presentamos un marco de autosupervisión óptimo de Pareto que puede aprovechar la supervisión programática disponible para calibrar sistemáticamente las respuestas de los LLMs, generando una puntuación de riesgo para cada respuesta, sin necesidad de esfuerzos manuales adicionales. Esto se logra mediante el aprendizaje de un modelo armonizador que alinea la salida del LLM con otras fuentes de supervisión disponibles, asignando puntuaciones de riesgo más altas a las respuestas más inciertas del LLM y facilitando la corrección de errores. Los experimentos en tareas estándar de extracción de relaciones en dominios biomédicos y generales demuestran el potencial de este enfoque, con nuestras puntuaciones de riesgo propuestas altamente correlacionadas con la tasa real de errores de los LLMs. Para las instancias de prueba más inciertas, el uso de indicaciones dinámicas basadas en nuestras puntuaciones de riesgo propuestas resulta en una mejora significativa en la precisión de los LLMs listos para usar, superando los resultados de GPT-3 más allá del estado del arte (SOTA) en supervisión débil y los resultados de GPT-4 más allá del SOTA en supervisión supervisada en conjuntos de datos de evaluación desafiantes.
English
Large language models (LLMs) have demonstrated remarkable capabilities out of
box for a wide range of applications, yet accuracy still remains a major growth
area, especially in mission-critical domains such as biomedicine. An effective
method to calibrate the confidence level on LLM responses is essential to
automatically detect errors and facilitate human-in-the-loop verification. An
important source of calibration signals stems from expert-stipulated
programmatic supervision, which is often available at low cost but has its own
limitations such as noise and coverage. In this paper, we introduce a Pareto
optimal self-supervision framework that can leverage available programmatic
supervision to systematically calibrate LLM responses by producing a risk score
for every response, without any additional manual efforts. This is accomplished
by learning a harmonizer model to align LLM output with other available
supervision sources, which would assign higher risk scores to more uncertain
LLM responses and facilitate error correction. Experiments on standard relation
extraction tasks in biomedical and general domains demonstrate the promise of
this approach, with our proposed risk scores highly correlated with the real
error rate of LLMs. For the most uncertain test instances, dynamic prompting
based on our proposed risk scores results in significant accuracy improvement
for off-the-shelf LLMs, boosting GPT-3 results past state-of-the-art (SOTA)
weak supervision and GPT-4 results past SOTA supervised results on challenging
evaluation datasets.