MetaFaith: Expresión Fiel de Incertidumbre en Lenguaje Natural en Modelos de Lenguaje de Gran Escala
MetaFaith: Faithful Natural Language Uncertainty Expression in LLMs
May 30, 2025
Autores: Gabrielle Kaili-May Liu, Gal Yona, Avi Caciularu, Idan Szpektor, Tim G. J. Rudner, Arman Cohan
cs.AI
Resumen
Un componente crítico en la confiabilidad de los LLM (Modelos de Lenguaje de Gran Escala) es la comunicación fiable de la incertidumbre, sin embargo, los LLM suelen utilizar un lenguaje asertivo al transmitir afirmaciones falsas, lo que lleva a una dependencia excesiva y a la erosión de la confianza. Presentamos el primer estudio sistemático sobre la calibración fiel de la confianza en los LLM, evaluando la capacidad de los modelos para utilizar expresiones lingüísticas de incertidumbre que reflejen fielmente su incertidumbre intrínseca, a través de una amplia gama de modelos, conjuntos de datos y estrategias de _prompting_. Nuestros resultados demuestran que los LLM fracasan en gran medida en esta tarea y que las intervenciones existentes son insuficientes: los enfoques estándar de _prompting_ ofrecen solo mejoras marginales, y las técnicas de calibración basadas en la factualidad existentes pueden incluso perjudicar la calibración fiel. Para abordar esta brecha crítica, introducimos MetaFaith, un novedoso enfoque de calibración basado en _prompting_ inspirado en la metacognición humana. Demostramos que MetaFaith mejora de manera robusta la calibración fiel en diversos modelos y dominios de tareas, permitiendo una mejora de hasta el 61% en la fidelidad y logrando una tasa de éxito del 83% sobre las generaciones originales, según la evaluación humana.
English
A critical component in the trustworthiness of LLMs is reliable uncertainty
communication, yet LLMs often use assertive language when conveying false
claims, leading to over-reliance and eroded trust. We present the first
systematic study of faithful confidence calibration of LLMs,
benchmarking models' ability to use linguistic expressions of uncertainty that
faithfully reflect their intrinsic uncertainty, across a
comprehensive array of models, datasets, and prompting strategies. Our results
demonstrate that LLMs largely fail at this task, and that existing
interventions are insufficient: standard prompt approaches provide only
marginal gains, and existing, factuality-based calibration techniques can even
harm faithful calibration. To address this critical gap, we introduce
MetaFaith, a novel prompt-based calibration approach inspired by human
metacognition. We show that MetaFaith robustly improves faithful calibration
across diverse models and task domains, enabling up to 61% improvement in
faithfulness and achieving an 83% win rate over original generations as judged
by humans.