Illusioni di sicurezza? Diagnostica della veridicità dei LLM attraverso la coerenza del vicinato

Abstract

Man mano che i Modelli Linguistici di Grande Dimensione (LLM) vengono sempre più impiegati in scenari reali, la sola correttezza non è sufficiente. Un utilizzo affidabile richiede il mantenimento di convinzioni veritiere sotto perturbazioni contestuali. Le valutazioni esistenti si basano in larga misura su misure puntuali di confidenza come l'Auto-Consistenza, che può mascherare convinzioni fragili. Dimostriamo che persino fatti risposti con auto-consistenza perfetta possono collassare rapidamente sotto lievi interferenze contestuali. Per colmare questa lacuna, proponiamo la Consistenza di Vicinato (NCB), una misura strutturale della robustezza delle convinzioni che valuta la coerenza delle risposte attraverso un intorno concettuale. Per validare l'efficienza dell'NCB, introduciamo un nuovo protocollo di stress test cognitivo che analizza la stabilità degli output sotto interferenze contestuali. Esperimenti su molteplici LLM mostrano che le prestazioni dei dati con alto NCB sono relativamente più resistenti alle interferenze. Infine, presentiamo l'Addestramento Consapevole della Struttura (SAT), che ottimizza la struttura delle convinzioni invariante al contesto e riduce la fragilità della conoscenza a coda lunga di circa il 30%. Il codice sarà disponibile su https://github.com/zjunlp/belief.

English

As Large Language Models (LLMs) are increasingly deployed in real-world settings, correctness alone is insufficient. Reliable deployment requires maintaining truthful beliefs under contextual perturbations. Existing evaluations largely rely on point-wise confidence like Self-Consistency, which can mask brittle belief. We show that even facts answered with perfect self-consistency can rapidly collapse under mild contextual interference. To address this gap, we propose Neighbor-Consistency Belief (NCB), a structural measure of belief robustness that evaluates response coherence across a conceptual neighborhood. To validate the efficiency of NCB, we introduce a new cognitive stress-testing protocol that probes outputs stability under contextual interference. Experiments across multiple LLMs show that the performance of high-NCB data is relatively more resistant to interference. Finally, we present Structure-Aware Training (SAT), which optimizes context-invariant belief structure and reduces long-tail knowledge brittleness by approximately 30%. Code will be available at https://github.com/zjunlp/belief.

Illusioni di sicurezza? Diagnostica della veridicità dei LLM attraverso la coerenza del vicinato

Illusions of Confidence? Diagnosing LLM Truthfulness via Neighborhood Consistency

Abstract

Support