ChatPaper.aiChatPaper

I grandi modelli linguistici NON sanno davvero ciò che non sanno.

Large Language Models Do NOT Really Know What They Don't Know

October 10, 2025
Autori: Chi Seng Cheang, Hou Pong Chan, Wenxuan Zhang, Yang Deng
cs.AI

Abstract

Recenti studi suggeriscono che i grandi modelli linguistici (LLM) codificano segnali di veridicità nelle loro rappresentazioni interne, come stati nascosti, pesi di attenzione o probabilità dei token, implicando che gli LLM possano "sapere ciò che non sanno". Tuttavia, gli LLM possono anche produrre errori fattuali basandosi su scorciatoie o associazioni spurie. Questi errori sono guidati dallo stesso obiettivo di addestramento che incoraggia previsioni corrette, sollevando la questione se i calcoli interni possano distinguere in modo affidabile tra output fattuali e allucinati. In questo lavoro, conduciamo un'analisi meccanicistica di come gli LLM elaborano internamente le query fattuali confrontando due tipi di allucinazioni in base alla loro dipendenza dalle informazioni sul soggetto. Scopriamo che quando le allucinazioni sono associate alla conoscenza del soggetto, gli LLM impiegano lo stesso processo di richiamo interno utilizzato per le risposte corrette, portando a geometrie degli stati nascosti sovrapposte e indistinguibili. Al contrario, le allucinazioni slegate dalla conoscenza del soggetto producono rappresentazioni distinte e raggruppate che le rendono rilevabili. Questi risultati rivelano una limitazione fondamentale: gli LLM non codificano la veridicità nei loro stati interni, ma solo modelli di richiamo della conoscenza, dimostrando che "gli LLM non sanno davvero ciò che non sanno".
English
Recent work suggests that large language models (LLMs) encode factuality signals in their internal representations, such as hidden states, attention weights, or token probabilities, implying that LLMs may "know what they don't know". However, LLMs can also produce factual errors by relying on shortcuts or spurious associations. These error are driven by the same training objective that encourage correct predictions, raising the question of whether internal computations can reliably distinguish between factual and hallucinated outputs. In this work, we conduct a mechanistic analysis of how LLMs internally process factual queries by comparing two types of hallucinations based on their reliance on subject information. We find that when hallucinations are associated with subject knowledge, LLMs employ the same internal recall process as for correct responses, leading to overlapping and indistinguishable hidden-state geometries. In contrast, hallucinations detached from subject knowledge produce distinct, clustered representations that make them detectable. These findings reveal a fundamental limitation: LLMs do not encode truthfulness in their internal states but only patterns of knowledge recall, demonstrating that "LLMs don't really know what they don't know".
PDF162October 17, 2025