ChatPaper.aiChatPaper

¿Ilusiones de Confianza? Diagnóstico de la Veracidad de los LLM mediante la Consistencia Vecinal

Illusions of Confidence? Diagnosing LLM Truthfulness via Neighborhood Consistency

January 9, 2026
Autores: Haoming Xu, Ningyuan Zhao, Yunzhi Yao, Weihong Xu, Hongru Wang, Xinle Deng, Shumin Deng, Jeff Z. Pan, Huajun Chen, Ningyu Zhang
cs.AI

Resumen

A medida que los Modelos de Lenguaje a Gran Escala (LLM) se despliegan cada vez más en entornos del mundo real, la corrección por sí sola es insuficiente. Un despliegue confiable requiere mantener creencias veraces bajo perturbaciones contextuales. Las evaluaciones existentes se basan en gran medida en medidas de confianza puntuales como la Autoconsistencia, que puede enmascarar creencias frágiles. Demostramos que incluso hechos respondidos con autoconsistencia perfecta pueden colapsar rápidamente bajo interferencias contextuales leves. Para abordar esta brecha, proponemos la Creencia de Consistencia Vecinal (NCB), una medida estructural de la robustez de la creencia que evalúa la coherencia de las respuestas en un vecindario conceptual. Para validar la eficiencia de NCB, introducimos un nuevo protocolo de prueba de estrés cognitivo que sondea la estabilidad de las salidas bajo interferencia contextual. Los experimentos con múltiples LLM muestran que el rendimiento de los datos con alta NCB es relativamente más resistente a la interferencia. Finalmente, presentamos el Entrenamiento Consciente de la Estructura (SAT), que optimiza la estructura de creencias invariante al contexto y reduce la fragilidad del conocimiento de cola larga en aproximadamente un 30%. El código estará disponible en https://github.com/zjunlp/belief.
English
As Large Language Models (LLMs) are increasingly deployed in real-world settings, correctness alone is insufficient. Reliable deployment requires maintaining truthful beliefs under contextual perturbations. Existing evaluations largely rely on point-wise confidence like Self-Consistency, which can mask brittle belief. We show that even facts answered with perfect self-consistency can rapidly collapse under mild contextual interference. To address this gap, we propose Neighbor-Consistency Belief (NCB), a structural measure of belief robustness that evaluates response coherence across a conceptual neighborhood. To validate the efficiency of NCB, we introduce a new cognitive stress-testing protocol that probes outputs stability under contextual interference. Experiments across multiple LLMs show that the performance of high-NCB data is relatively more resistant to interference. Finally, we present Structure-Aware Training (SAT), which optimizes context-invariant belief structure and reduces long-tail knowledge brittleness by approximately 30%. Code will be available at https://github.com/zjunlp/belief.
PDF121January 13, 2026