Ilusões de Confiança? Diagnosticando a Veracidade de LLMs por Meio da Consistência de Vizinhança

Resumo

À medida que os Modelos de Linguagem de Grande Porte (LLMs) são cada vez mais implantados em ambientes do mundo real, a correção por si só é insuficiente. Uma implantação confiável exige a manutenção de crenças verdadeiras sob perturbações contextuais. As avaliações existentes dependem amplamente de medidas pontuais de confiança, como a Auto-Consistência, que pode mascarar crenças frágeis. Demonstramos que mesmo fatos respondidos com auto-consistência perfeita podem colapsar rapidamente sob interferência contextual leve. Para colmatar esta lacuna, propomos a Crença de Consistência de Vizinhança (NCB), uma medida estrutural da robustez da crença que avalia a coerência da resposta em toda uma vizinhança conceptual. Para validar a eficiência do NCB, introduzimos um novo protocolo de teste de stress cognitivo que analisa a estabilidade das saídas sob interferência contextual. Experiências com vários LLMs mostram que o desempenho dos dados com NCB elevado é relativamente mais resistente à interferência. Por fim, apresentamos o Treino com Consciência Estrutural (SAT), que otimiza a estrutura de crença invariante ao contexto e reduz a fragilidade do conhecimento de cauda longa em aproximadamente 30%. O código estará disponível em https://github.com/zjunlp/belief.

English

As Large Language Models (LLMs) are increasingly deployed in real-world settings, correctness alone is insufficient. Reliable deployment requires maintaining truthful beliefs under contextual perturbations. Existing evaluations largely rely on point-wise confidence like Self-Consistency, which can mask brittle belief. We show that even facts answered with perfect self-consistency can rapidly collapse under mild contextual interference. To address this gap, we propose Neighbor-Consistency Belief (NCB), a structural measure of belief robustness that evaluates response coherence across a conceptual neighborhood. To validate the efficiency of NCB, we introduce a new cognitive stress-testing protocol that probes outputs stability under contextual interference. Experiments across multiple LLMs show that the performance of high-NCB data is relatively more resistant to interference. Finally, we present Structure-Aware Training (SAT), which optimizes context-invariant belief structure and reduces long-tail knowledge brittleness by approximately 30%. Code will be available at https://github.com/zjunlp/belief.

Ilusões de Confiança? Diagnosticando a Veracidade de LLMs por Meio da Consistência de Vizinhança

Illusions of Confidence? Diagnosing LLM Truthfulness via Neighborhood Consistency

Resumo

Support