Inside-Out : Les connaissances factuelles cachées dans les LLM
Inside-Out: Hidden Factual Knowledge in LLMs
March 19, 2025
Auteurs: Zorik Gekhman, Eyal Ben David, Hadas Orgad, Eran Ofek, Yonatan Belinkov, Idan Szpector, Jonathan Herzig, Roi Reichart
cs.AI
Résumé
Ce travail présente un cadre pour évaluer si les grands modèles de langage (LLMs) encodent davantage de connaissances factuelles dans leurs paramètres que ce qu'ils expriment dans leurs sorties. Bien que quelques études suggèrent cette possibilité, aucune n'a clairement défini ou démontré ce phénomène. Nous proposons d'abord une définition formelle de la connaissance, la quantifiant pour une question donnée comme la fraction de paires de réponses correctes-incorrectes où la réponse correcte est classée plus haut. Cela donne lieu à des connaissances externes et internes, selon les informations utilisées pour évaluer les candidats de réponse individuels : soit les probabilités observables au niveau des tokens du modèle, soit ses calculs intermédiaires. Une connaissance cachée apparaît lorsque la connaissance interne dépasse la connaissance externe. Nous présentons ensuite une étude de cas, appliquant ce cadre à trois LLMs populaires à poids ouverts dans un contexte de question-réponse en mode fermé. Nos résultats indiquent que : (1) Les LLMs encodent systématiquement plus de connaissances factuelles en interne que ce qu'ils expriment en externe, avec un écart moyen de 40 %. (2) Étonnamment, certaines connaissances sont si profondément cachées qu'un modèle peut parfaitement connaître une réponse en interne, tout en échouant à la générer même une fois, malgré un échantillonnage répété à grande échelle de 1 000 réponses. Cela révèle des limitations fondamentales dans les capacités de génération des LLMs, ce qui (3) impose une contrainte pratique sur l'augmentation des calculs au moment du test via l'échantillonnage répété de réponses dans un contexte de question-réponse en mode fermé : des améliorations significatives des performances restent inaccessibles car certaines réponses ne sont pratiquement jamais échantillonnées, alors que si elles l'étaient, nous serions assurés de les classer en premier.
English
This work presents a framework for assessing whether large language models
(LLMs) encode more factual knowledge in their parameters than what they express
in their outputs. While a few studies hint at this possibility, none has
clearly defined or demonstrated this phenomenon. We first propose a formal
definition of knowledge, quantifying it for a given question as the fraction of
correct-incorrect answer pairs where the correct one is ranked higher. This
gives rise to external and internal knowledge, depending on the information
used to score individual answer candidates: either the model's observable
token-level probabilities or its intermediate computations. Hidden knowledge
arises when internal knowledge exceeds external knowledge. We then present a
case study, applying this framework to three popular open-weights LLMs in a
closed-book QA setup. Our results indicate that: (1) LLMs consistently encode
more factual knowledge internally than what they express externally, with an
average gap of 40%. (2) Surprisingly, some knowledge is so deeply hidden that a
model can internally know an answer perfectly, yet fail to generate it even
once, despite large-scale repeated sampling of 1,000 answers. This reveals
fundamental limitations in the generation capabilities of LLMs, which (3) puts
a practical constraint on scaling test-time compute via repeated answer
sampling in closed-book QA: significant performance improvements remain
inaccessible because some answers are practically never sampled, yet if they
were, we would be guaranteed to rank them first.Summary
AI-Generated Summary