Calibración Automática y Corrección de Errores para Modelos de Lenguaje a Gran Escala mediante Autosupervisión Óptima de Pareto

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades notables de manera inmediata para una amplia gama de aplicaciones, aunque la precisión sigue siendo un área clave de mejora, especialmente en dominios críticos como la biomedicina. Un método efectivo para calibrar el nivel de confianza en las respuestas de los LLMs es esencial para detectar errores automáticamente y facilitar la verificación con intervención humana. Una fuente importante de señales de calibración proviene de la supervisión programática establecida por expertos, que suele estar disponible a bajo costo pero tiene sus propias limitaciones, como el ruido y la cobertura. En este artículo, presentamos un marco de autosupervisión óptimo de Pareto que puede aprovechar la supervisión programática disponible para calibrar sistemáticamente las respuestas de los LLMs, generando una puntuación de riesgo para cada respuesta, sin necesidad de esfuerzos manuales adicionales. Esto se logra mediante el aprendizaje de un modelo armonizador que alinea la salida del LLM con otras fuentes de supervisión disponibles, asignando puntuaciones de riesgo más altas a las respuestas más inciertas del LLM y facilitando la corrección de errores. Los experimentos en tareas estándar de extracción de relaciones en dominios biomédicos y generales demuestran el potencial de este enfoque, con nuestras puntuaciones de riesgo propuestas altamente correlacionadas con la tasa real de errores de los LLMs. Para las instancias de prueba más inciertas, el uso de indicaciones dinámicas basadas en nuestras puntuaciones de riesgo propuestas resulta en una mejora significativa en la precisión de los LLMs listos para usar, superando los resultados de GPT-3 más allá del estado del arte (SOTA) en supervisión débil y los resultados de GPT-4 más allá del SOTA en supervisión supervisada en conjuntos de datos de evaluación desafiantes.

English

Large language models (LLMs) have demonstrated remarkable capabilities out of box for a wide range of applications, yet accuracy still remains a major growth area, especially in mission-critical domains such as biomedicine. An effective method to calibrate the confidence level on LLM responses is essential to automatically detect errors and facilitate human-in-the-loop verification. An important source of calibration signals stems from expert-stipulated programmatic supervision, which is often available at low cost but has its own limitations such as noise and coverage. In this paper, we introduce a Pareto optimal self-supervision framework that can leverage available programmatic supervision to systematically calibrate LLM responses by producing a risk score for every response, without any additional manual efforts. This is accomplished by learning a harmonizer model to align LLM output with other available supervision sources, which would assign higher risk scores to more uncertain LLM responses and facilitate error correction. Experiments on standard relation extraction tasks in biomedical and general domains demonstrate the promise of this approach, with our proposed risk scores highly correlated with the real error rate of LLMs. For the most uncertain test instances, dynamic prompting based on our proposed risk scores results in significant accuracy improvement for off-the-shelf LLMs, boosting GPT-3 results past state-of-the-art (SOTA) weak supervision and GPT-4 results past SOTA supervised results on challenging evaluation datasets.

Calibración Automática y Corrección de Errores para Modelos de Lenguaje a Gran Escala mediante Autosupervisión Óptima de Pareto

Automatic Calibration and Error Correction for Large Language Models via Pareto Optimal Self-Supervision

Resumen

Support