ChatPaper.aiChatPaper

¿Son las decisiones de los LLM fieles a la confianza verbal?

Are LLM Decisions Faithful to Verbal Confidence?

January 12, 2026
Autores: Jiawei Wang, Yanfei Zhou, Siddartha Devic, Deqing Fu
cs.AI

Resumen

Los Modelos de Lenguaje a Gran Escala (LLM) pueden producir estimaciones sorprendentemente sofisticadas de su propia incertidumbre. Sin embargo, aún no está claro hasta qué punto esta confianza expresada está vinculada al razonamiento, conocimiento o toma de decisiones del modelo. Para evaluar esto, presentamos RiskEval: un marco diseñado para evaluar si los modelos ajustan sus políticas de abstención en respuesta a diferentes penalizaciones por error. Nuestra evaluación de varios modelos de vanguardia revela una disociación crítica: los modelos no son conscientes del costo al articular su confianza verbal, ni responden estratégicamente al decidir si participar o abstenerse en condiciones de alta penalización. Incluso cuando penalizaciones extremas hacen de la abstención frecuente la estrategia matemáticamente óptima, los modelos casi nunca se abstienen, lo que resulta en un colapso de la utilidad. Esto indica que las puntuaciones de confianza verbal calibrada pueden no ser suficientes para crear sistemas de IA confiables e interpretables, ya que los modelos actuales carecen de la agencia estratégica para convertir las señales de incertidumbre en decisiones óptimas y sensibles al riesgo.
English
Large Language Models (LLMs) can produce surprisingly sophisticated estimates of their own uncertainty. However, it remains unclear to what extent this expressed confidence is tied to the reasoning, knowledge, or decision making of the model. To test this, we introduce RiskEval: a framework designed to evaluate whether models adjust their abstention policies in response to varying error penalties. Our evaluation of several frontier models reveals a critical dissociation: models are neither cost-aware when articulating their verbal confidence, nor strategically responsive when deciding whether to engage or abstain under high-penalty conditions. Even when extreme penalties render frequent abstention the mathematically optimal strategy, models almost never abstain, resulting in utility collapse. This indicates that calibrated verbal confidence scores may not be sufficient to create trustworthy and interpretable AI systems, as current models lack the strategic agency to convert uncertainty signals into optimal and risk-sensitive decisions.
PDF43February 7, 2026