ChatPaper.aiChatPaper

Les grands modèles de langage ne savent PAS vraiment ce qu'ils ignorent.

Large Language Models Do NOT Really Know What They Don't Know

October 10, 2025
papers.authors: Chi Seng Cheang, Hou Pong Chan, Wenxuan Zhang, Yang Deng
cs.AI

papers.abstract

Des travaux récents suggèrent que les grands modèles de langage (LLMs) encodent des signaux de factualité dans leurs représentations internes, telles que les états cachés, les poids d'attention ou les probabilités de tokens, impliquant que les LLMs pourraient « savoir ce qu'ils ne savent pas ». Cependant, les LLMs peuvent également produire des erreurs factuelles en s'appuyant sur des raccourcis ou des associations fallacieuses. Ces erreurs sont motivées par le même objectif d'entraînement qui encourage des prédictions correctes, soulevant la question de savoir si les calculs internes peuvent distinguer de manière fiable les sorties factuelles des hallucinations. Dans ce travail, nous menons une analyse mécaniste de la manière dont les LLMs traitent en interne les requêtes factuelles en comparant deux types d'hallucinations basées sur leur dépendance à l'information du sujet. Nous constatons que lorsque les hallucinations sont associées à la connaissance du sujet, les LLMs emploient le même processus de rappel interne que pour les réponses correctes, conduisant à des géométries d'états cachés qui se chevauchent et sont indiscernables. En revanche, les hallucinations détachées de la connaissance du sujet produisent des représentations distinctes et regroupées qui les rendent détectables. Ces résultats révèlent une limitation fondamentale : les LLMs n'encodent pas la véracité dans leurs états internes mais seulement des schémas de rappel de connaissances, démontrant que « les LLMs ne savent pas vraiment ce qu'ils ne savent pas ».
English
Recent work suggests that large language models (LLMs) encode factuality signals in their internal representations, such as hidden states, attention weights, or token probabilities, implying that LLMs may "know what they don't know". However, LLMs can also produce factual errors by relying on shortcuts or spurious associations. These error are driven by the same training objective that encourage correct predictions, raising the question of whether internal computations can reliably distinguish between factual and hallucinated outputs. In this work, we conduct a mechanistic analysis of how LLMs internally process factual queries by comparing two types of hallucinations based on their reliance on subject information. We find that when hallucinations are associated with subject knowledge, LLMs employ the same internal recall process as for correct responses, leading to overlapping and indistinguishable hidden-state geometries. In contrast, hallucinations detached from subject knowledge produce distinct, clustered representations that make them detectable. These findings reveal a fundamental limitation: LLMs do not encode truthfulness in their internal states but only patterns of knowledge recall, demonstrating that "LLMs don't really know what they don't know".
PDF162October 17, 2025