MetaFaith: Expresión Fiel de Incertidumbre en Lenguaje Natural en Modelos de Lenguaje de Gran Escala

Resumen

Un componente crítico en la confiabilidad de los LLM (Modelos de Lenguaje de Gran Escala) es la comunicación fiable de la incertidumbre, sin embargo, los LLM suelen utilizar un lenguaje asertivo al transmitir afirmaciones falsas, lo que lleva a una dependencia excesiva y a la erosión de la confianza. Presentamos el primer estudio sistemático sobre la calibración fiel de la confianza en los LLM, evaluando la capacidad de los modelos para utilizar expresiones lingüísticas de incertidumbre que reflejen fielmente su incertidumbre intrínseca, a través de una amplia gama de modelos, conjuntos de datos y estrategias de _prompting_. Nuestros resultados demuestran que los LLM fracasan en gran medida en esta tarea y que las intervenciones existentes son insuficientes: los enfoques estándar de _prompting_ ofrecen solo mejoras marginales, y las técnicas de calibración basadas en la factualidad existentes pueden incluso perjudicar la calibración fiel. Para abordar esta brecha crítica, introducimos MetaFaith, un novedoso enfoque de calibración basado en _prompting_ inspirado en la metacognición humana. Demostramos que MetaFaith mejora de manera robusta la calibración fiel en diversos modelos y dominios de tareas, permitiendo una mejora de hasta el 61% en la fidelidad y logrando una tasa de éxito del 83% sobre las generaciones originales, según la evaluación humana.

English

A critical component in the trustworthiness of LLMs is reliable uncertainty communication, yet LLMs often use assertive language when conveying false claims, leading to over-reliance and eroded trust. We present the first systematic study of faithful confidence calibration of LLMs, benchmarking models' ability to use linguistic expressions of uncertainty that faithfully reflect their intrinsic uncertainty, across a comprehensive array of models, datasets, and prompting strategies. Our results demonstrate that LLMs largely fail at this task, and that existing interventions are insufficient: standard prompt approaches provide only marginal gains, and existing, factuality-based calibration techniques can even harm faithful calibration. To address this critical gap, we introduce MetaFaith, a novel prompt-based calibration approach inspired by human metacognition. We show that MetaFaith robustly improves faithful calibration across diverse models and task domains, enabling up to 61% improvement in faithfulness and achieving an 83% win rate over original generations as judged by humans.

MetaFaith: Expresión Fiel de Incertidumbre en Lenguaje Natural en Modelos de Lenguaje de Gran Escala

MetaFaith: Faithful Natural Language Uncertainty Expression in LLMs

Resumen

Support